# Kategorik Verileri Sayısala Dönüştürme: One-Hot Encoding Rehberi

Bu rehber, makine öğrenmesi modellerinin anlayabilmesi için kategorik (metin tabanlı) verilerin nasıl sayısal formata dönüştürüleceğini, özellikle de en yaygın yöntemlerden biri olan **One-Hot Encoding** tekniğini anlatır.

## 1. Neden Kategorik Verileri Dönüştürmeliyiz?

Makine öğrenmesi algoritmalarının büyük çoğunluğu (Lineer Regresyon, SVM, Sinir Ağları vb.) matematiksel denklemlerle çalışır. Bu algoritmalar, metin tabanlı kategorileri (örneğin, 'Şehir' sütunundaki 'İstanbul', 'Ankara') doğrudan işleyemezler. Modellerin bu bilgileri kullanabilmesi için onları sayısal bir formata çevirmemiz gerekir.

## 2. One-Hot Encoding Nedir?

One-Hot Encoding, kategorik bir değişkendeki her bir benzersiz kategori için yeni bir ikili (binary) sütun oluşturma yöntemidir.

**Çalışma Mantığı:**
1. Dönüştürülecek sütundaki tüm benzersiz kategorileri belirler.
2. Her bir benzersiz kategori için yeni bir sütun oluşturur.
3. Bir satır için, o satırın orijinal kategorisine karşılık gelen yeni sütuna **1**, diğer tüm yeni kategori sütunlarına ise **0** yazar.

Bu yöntem, kategoriler arasında herhangi bir sıralama veya büyüklük ilişkisi olmadığında (örneğin, şehirler, renkler, departmanlar) idealdir.

In [None]:
import pandas as pd

# Örnek bir veri seti oluşturalım
data = {'urun_id': [101, 102, 103, 104, 105],
        'renk': ['Kırmızı', 'Mavi', 'Yeşil', 'Kırmızı', 'Mavi'],
        'fiyat': [10, 15, 12, 8, 14]}

df = pd.DataFrame(data)

print("--- Orjinal Veri Seti ---")
display(df)

## 3. Pandas `get_dummies()` ile Uygulama

Pandas, One-Hot Encoding işlemini `pd.get_dummies()` fonksiyonu ile son derece kolay bir şekilde yapmamızı sağlar.

In [None]:
# 'renk' sütununa One-Hot Encoding uygulayalım
df_one_hot = pd.get_dummies(df, columns=['renk'])

print("--- One-Hot Encoding Uygulanmış Veri Seti ---")
display(df_one_hot)

Gördüğünüz gibi, `renk` sütunu kaldırıldı ve yerine `renk_Kırmızı`, `renk_Mavi`, `renk_Yeşil` adında üç yeni sütun eklendi. Her satırda, ürünün rengine karşılık gelen sütun 1, diğerleri 0 değerini aldı.

## 4. Dummy Değişken Tuzağı ve `drop_first=True`

One-Hot Encoding sonucunda oluşturulan yeni sütunlar arasında **çoklu doğrusallık (multicollinearity)** adı verilen bir durum ortaya çıkar. Yani, sütunlardan biri diğerleri tarafından tahmin edilebilir. Örneğin, bir ürünün `renk_Kırmızı` ve `renk_Mavi` sütunları 0 ise, `renk_Yeşil` sütununun 1 olacağı kesindir. Bu durum, bazı makine öğrenmesi modellerinin (özellikle Lineer Regresyon) performansını olumsuz etkileyebilir.

Bunu önlemek için `get_dummies` fonksiyonundaki `drop_first=True` parametresini kullanırız. Bu parametre, oluşturulan dummy değişkenlerden ilkini atarak bu bağımlılığı ortadan kaldırır.

In [None]:
# `drop_first=True` kullanarak dummy değişken tuzağını önleme
df_one_hot_dropped = pd.get_dummies(df, columns=['renk'], drop_first=True)

print("--- `drop_first=True` ile One-Hot Encoding ---")
display(df_one_hot_dropped)

Bu sefer, kategorilerden biri (alfabetik olarak ilk olan `Kırmızı`) atıldı. Artık model, bir rengin `Mavi` veya `Yeşil` olmadığını biliyorsa, onun `Kırmızı` olduğunu anlayabilir. Böylece bilgi kaybı olmadan çoklu doğrusallık sorunu çözülmüş olur.

## Sonuç

One-Hot Encoding, kategorik verileri makine öğrenmesi modelleri için hazırlamanın temel ve etkili bir yoludur. `pd.get_dummies()` fonksiyonu ve `drop_first=True` parametresi, bu işlemi verimli ve doğru bir şekilde yapmak için ihtiyacınız olan araçları sunar.