In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day3-FeatureSelection/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day3-FeatureSelection/notebooks"
DATASET_PATH = ROOT_DIR + "/datasets/"

# Giriş #

Bu kursta gördüğümüz tekniklerin çoğu sayısal özellikler içindi. Bu derste inceleyeceğimiz teknik olan *hedef kodlama* (*target encoding*) bunun yerine kategorik özellikler içindir. one-hot veya etiket kodlaması gibi kategorileri sayılar olarak kodlamanın bir yöntemidir, tek farkı kodlamayı oluşturmak için *hedefi* (*target*) kullanmasıdır. Bu, onu **denetimli** (**supervised** ) bir özellik mühendisliği tekniği olarak adlandırdığımız şey yapar.


In [None]:
import pandas as pd

autos = pd.read_csv(DATASET_PATH + "autos.csv")

# Target Encoding #

Bir **hedef kodlaması** (**target encoding**), bir özelliğin kategorilerini hedeften türetilen bir sayı ile değiştiren herhangi bir kodlama türüdür.

Basit ve etkili bir versiyon, ortalama gibi Ders 3'ten bir grup toplaması uygulamaktır. *Automobiles* veri setini kullanarak, her bir aracın markasının ortalama fiyatını hesaplar:


In [None]:
autos["make_encoded"] = autos.groupby("make")["price"].transform("mean")

autos[["make", "price", "make_encoded"]].head(10)

Bu tür hedef kodlamaya bazen **ortalama kodlama** (**mean encoding**) denir. İkili bir hedefe uygulandığında buna **kutu sayma** (**bin counting**) da denir. (Karşılaşabileceğiniz diğer adlar şunları içerir: olasılık kodlaması, etki kodlaması ve bir dışarıda bırakma kodlaması.(likelihood encoding, impact encoding, and leave-one-out encoding.))

# Smoothing #

Bununla birlikte, bunun gibi bir kodlama birkaç sorun sunar. İlki *bilinmeyen kategoriler*. Hedef kodlamalar, overfitting riski yaratır, bu da onların bağımsız bir "kodlama" ("encoding") ayrımında eğitilmeleri gerektiği anlamına gelir. Gelecekteki bölmelere kodlamaya katıldığınızda, Pandas kodlama bölümünde bulunmayan tüm kategoriler için eksik değerleri dolduracaktır. Bir şekilde atfetmeniz gereken bu eksik değerler.

İkincisi *nadir kategoriler* (*rare categories*). Bir kategori veri kümesinde yalnızca birkaç kez geçtiğinde, grubu üzerinde hesaplanan herhangi bir istatistiğin çok doğru olması pek olası değildir. *Automobiles* veri kümesinde, `mercurcy` yalnızca bir kez gerçekleşir. Hesapladığımız "ortalama" fiyat, yalnızca o aracın fiyatıdır ve gelecekte görebileceğimiz Mercuries pek temsil etmeyebilir. Hedef kodlama nadir kategorileri, fazla uydurmayı daha olası hale getirebilir.

Bu sorunlara bir çözüm, **smoothing** eklemektir. Buradaki fikir, *kategori içi* ortalamayı *genel* ortalamayla harmanlamaktır. Nadir kategoriler, kategori ortalamalarında daha az ağırlık alırken, eksik kategoriler yalnızca genel ortalamayı alır.

In pseudocode:
```
encoding = weight * in_category + (1 - weight) * overall
```
where `weight` is a value between 0 and 1 calculated from the category frequency.

An easy way to determine the value for `weight` is to compute an **m-estimate**:
```
weight = n / (n + m)
```
where `n` is the total number of times that category occurs in the data. The parameter `m` determines the "smoothing factor". Larger values of `m` put more weight on the overall estimate.

<figure style="padding: 1em;">
<img src="https://i.imgur.com/1uVtQEz.png" width=500, alt="">
<figcaption style="textalign: center; font-style: italic"><center>
</center></figcaption>
</figure>

*Automobiles* veri setinde `chevrolet` markasına sahip üç araba var. `m=2.0`ı seçerseniz, `chevrolet` kategorisi ortalama Chevrolet fiyatının %60'ı artı genel ortalama fiyatın %40'ı ile kodlanır.


```
chevrolet = 0.6 * 6000.00 + 0.4 * 13285.03
```
`m` için bir değer seçerken, kategorilerin ne kadar gürültülü olmasını beklediğinizi düşünün. Bir aracın fiyatı, her marka içinde büyük ölçüde değişir mi? İyi tahminler elde etmek için çok fazla veriye mi ihtiyacınız var? Eğer öyleyse, `m` için daha büyük bir değer seçmek daha iyi olabilir; her marka için ortalama fiyat nispeten sabit olsaydı, daha küçük bir değer uygun olabilirdi.


<blockquote style="margin-right:auto; margin-left:auto; background-color: #ebf9ff; padding: 1em; margin:24px;">
<strong>Use Cases for Target Encoding</strong><br>
Hedef kodlama aşağıdakiler için harikadır:
<ul>
<li><strong>Yüksek kardinalite özellikleri</strong>: Çok sayıda kategoriye sahip bir özelliğin kodlanması zahmetli olabilir: one-hot encoding çok fazla özellik oluşturur ve etiket kodlaması gibi alternatifler bu özellik için uygun olmayabilir. Hedef kodlaması, özelliğin en önemli özelliğini kullanarak kategoriler için sayılar türetir: hedefle olan ilişkisi.

<li><strong>Alan-motive özellikler</strong>: Önceki deneyimlere göre, kategorik bir özelliğin, bir özellik metriğiyle zayıf puan almış olsa bile önemli olması gerektiğinden şüphelenebilirsiniz. Hedef kodlama, bir özelliğin gerçek bilgi vericiliğini ortaya çıkarmaya yardımcı olabilir.

</ul>
</blockquote>

# Örnek - MovieLens1M #

[*MovieLens1M*](https://www.kaggle.com/grouplens/movielens-20m-dataset) veri kümesi, her bir kullanıcıyı ve filmi açıklayan özelliklerle birlikte MovieLens web sitesi kullanıcıları tarafından bir milyon film derecelendirmesi içerir. Bu gizli hücre her şeyi ayarlar:

In [None]:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import warnings

plt.style.use("seaborn-whitegrid")
plt.rc("figure", autolayout=True)
plt.rc(
    "axes",
    labelweight="bold",
    labelsize="large",
    titleweight="bold",
    titlesize=14,
    titlepad=10,
)
warnings.filterwarnings('ignore')


df = pd.read_csv(DATASET_PATH + "movielens1m.csv")
df = df.astype(np.uint8, errors='ignore') # reduce memory footprint
print("Number of Unique Zipcodes: {}".format(df["Zipcode"].nunique()))

3000'den fazla kategoriyle,`Zipcode`özelliği hedef kodlama için iyi bir adaydır ve bu veri kümesinin boyutu (bir milyondan fazla satır), kodlamayı oluşturmak için bazı verileri ayırabileceğimiz anlamına gelir.

Hedef kodlayıcıyı eğitmek için %25'lik bir bölünme oluşturarak başlayacağız.

In [None]:
X = df.copy()
y = X.pop('Rating')

X_encode = X.sample(frac=0.25)
y_encode = y[X_encode.index]
X_pretrain = X.drop(X_encode.index)
y_train = y[X_pretrain.index]

`scikit-learn-contrib` içindeki `category_encoders` paketi, `Zipcode`özelliğimizi kodlamak için kullanacağımız bir m-estimate encoder uygular.


In [None]:
!pip install category_encoders

In [None]:
from category_encoders import MEstimateEncoder

# Create the encoder instance. Choose m to control noise.
encoder = MEstimateEncoder(cols=["Zipcode"], m=5.0)

# Fit the encoder on the encoding split.
encoder.fit(X_encode, y_encode)

# Encode the Zipcode column to create the final training data
X_train = encoder.transform(X_pretrain)

Kodlamamızın ne kadar bilgilendirici olabileceğini görmek için kodlanmış değerleri hedefle karşılaştıralım.

In [None]:
plt.figure(dpi=90)
ax = sns.distplot(y, kde=False, norm_hist=True)
ax = sns.kdeplot(X_train.Zipcode, color='r', ax=ax)
ax.set_xlabel("Rating")
ax.legend(labels=['Zipcode', 'Rating']);

Kodlanmış `Zipcode` özelliğinin dağılımı, gerçek derecelendirmelerin dağılımını kabaca takip eder; bu, film izleyicilerinin derecelendirmelerinde posta kodundan posta koduna yeterince farklı olduğu ve hedef kodlamamızın yararlı bilgileri yakalayabildiği anlamına gelir.
