<h3>Feature Engineering'e hoşgeldiniz</h3>
<br/>
<p>Bu eğitimde, büyük machine learning modelini oluşturmadaki en önemli adımı öğreneceğiz: <i>feature engineering</i>. Şunları öğreneceğiz:</p>
<ul>
    <li>karşılıklı bilgi ile hangi özelliklerin en önemli olduğunu belirlemek</li>
    <li>çeşitli gerçek dünya problem alanlarında yeni özellikler icat etmek</li>
    <li>yüksek kardinaliteli kategorik değişkenleri target encoding ile kodlama(encode)</li>
    <li>K-means kümeleme ile segmentasyon özellikleri oluşturmak</li>
    <li>temel bileşen analizi ile bir veri setinin varyasyonunu özelliklere ayırmak</li>
</ul>

<br>Hazırmısın?</br>

<br/><br/>
<h3>Feature Engineering'in amacı</h3>
<p>Feature Engineering'in temel amacı, verilerinizin mevcut soruna daha uygun hale getirmektir.</p>
<br/>
<p>"Görünen sıcaklık" ölçümlerini düşünün, örneğin sıcaklık endeksi ve rüzgar soğuğu. Bu büyüklükler, doğrudan ölçebildiğimiz hava sıcaklığı, nem ve rüzgar hızı gibi faktörlere dayanarak insanların algıladığı sıcaklığı ölçmeye çalışır. Görünen sıcaklığı, gözlemlenen verileri aslında önemsediğimiz şey olan "dışarısı gerçekte nasıl hissediliyor?" sorusuna daha alakalı hale getirmeye yönelik bir tür Feature Engineering sonucu olarak düşünebilirsiniz!</p>
<br/>
<p>Özellik mühendisliğini şu amaçlarla gerçekleştirebilirsiniz:</p>
<ul>
    <li>modelin performansını arttırmak</li>
    <li>hesaplama veya veri ihtiyaçlarını azaltmak</li>
    <li>sonuçların yorumlanabilirliğini iyileştirmek</li>
</ul>
<br/>
<h3>Feature Engineering'in Temel İlkesi</h3>
<p>Bir özelliğin faydalı olabilmesi için, modelinizin öğrenebileceği türden bir hedef ilişkisine sahip olması gerekir. Örneğin, doğrusal modeller(Linear Models) sadece doğrusal ilişkileri öğrenebilir. Bu nedenle, bir doğrusal model kullanırken amacınız, özelliklerin hedefle olan ilişkisini doğrusal hale getirecek şekilde dönüşümler yapmaktır.</p>
<br/>
<p>Buradaki temel fikir, bir özelliğe uyguladığınız dönüşümün özünde modelin bir parçası haline gelmesidir. Diyelim ki, bir tarafın Uzunluğundan yola çıkarak kare parsellerin Fiyatını tahmin etmeye çalışıyorsunuz. Doğrusal bir modeli doğrudan Uzunluğa uydurmak zayıf sonuçlar verir: ilişki doğrusal değildir.</p>
<figure><img style="display: block;
  margin-left: auto;
  margin-right: auto;
  width: 30%;" src="./regression_Of_Price_Lenght.png">
    <figcaption>
        <center>
            Sadece Uzunluk özelliğinin kullanıldığı doğrusal bir model pek uyumlu değildir.
        </center>
    </figcaption>
</figure>


<p>Ancak, 'Alan' özelliğini elde etmek için Uzunluk özelliğinin karesini alırsak, doğrusal bir ilişki yaratmış oluruz. Alan'ı özellik setine eklemek, bu doğrusal modelin artık bir parabol uydurabileceği anlamına gelir. Başka bir deyişle, bir özelliğin karesini almak, doğrusal modele karesel özelliklere uyum sağlama yeteneği kazandırdı.</p>

<figure><img style="display: block;
  margin-left: auto;
  margin-right: auto;
  width: 50%;" src="./regression_Relationship_Lenght_Area.png">
    <figcaption>
        <center>
            <b>Sol</b>: Alana uyum çok daha iyi.  <b>Sağ</b>: Bu da Uzunluğa uyumu daha iyi hale getiriyor.
        </center>
    </figcaption>
</figure>


<p>Bu, Feature Engineering yatırılan zamanın neden bu kadar yüksek bir getiri sağlayabileceğini size göstermelidir. Modelinizin öğrenemediği ilişkileri, siz dönüşümler yoluyla kendinize sağlayabilirsiniz. Özellik setinizi geliştirirken, modelinizin en iyi performansı elde etmek için hangi bilgileri kullanabileceğini düşünün.</p>

<br/>
<h3>Örneğin - Beton Formülasyonları</h3>
<br/>
<p>Bu fikirleri örneklendirmek için bir veri setine birkaç sentetik özellik eklemenin rastgele orman modelinin tahmin performansını nasıl artırabileceğini göreceğiz.</p>
<br/>
<p>Beton veri kümesi, çeşitli beton formülasyonlarını ve elde edilen ürünün basınç dayanımını içerir. Bu, söz konusu beton türünün ne kadar yük taşıyabileceğinin bir ölçüsüdür. Bu veri kümesinin görevi, formülasyonu verilen bir betonun basınç dayanımını tahmin etmektir.</p>

In [1]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("ryanholbrook/fe-course-data")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/ryanholbrook/fe-course-data?dataset_version_number=9...


100%|██████████| 25.8M/25.8M [00:02<00:00, 9.84MB/s]

Extracting files...





Path to dataset files: /home/alptokat/.cache/kagglehub/datasets/ryanholbrook/fe-course-data/versions/9


In [4]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

df = pd.read_csv("/home/alptokat/.cache/kagglehub/datasets/ryanholbrook/fe-course-data/versions/9/concrete.csv")
df.head()

Unnamed: 0,Cement,BlastFurnaceSlag,FlyAsh,Water,Superplasticizer,CoarseAggregate,FineAggregate,Age,CompressiveStrength
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.99
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.89
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.27
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.3


<br/>
<br/>
<p>Burada her beton çeşidinin içine giren çeşitli malzemeleri görebilirsiniz. Birazdan, bunlardan türetilen bazı ek sentetik özelliklerin eklenmesinin, bir modelin bunlar arasındaki önemli ilişkileri öğrenmesine nasıl yardımcı olabileceğini göreceğiz.</p>
<br/>
<p>Öncelikle modeli geliştirilmemiş veri kümesi üzerinde eğiterek bir temel oluşturacağız. Bu, yeni özelliklerimizin gerçekten faydalı olup olmadığını belirlememize yardımcı olacak.
</p>
<br/>
<p>
    Bu tür temel noktalar oluşturmak, feature engineering sürecinin başlangıcında iyi bir uygulamadır. Bir temel nokta puanı, yeni özelliklerinizin saklanmaya değer olup olmadığına veya bunları atıp başka bir şey denemeniz gerekip gerekmediğine karar vermenize yardımcı olabilir.
</p>

In [5]:
X = df.copy()
y = X.pop("CompressiveStrength")

# Train and score baseline model
baseline = RandomForestRegressor(criterion="absolute_error", random_state=0)
baseline_score = cross_val_score(
    baseline, X, y, cv=5, scoring="neg_mean_absolute_error"
)
baseline_score = -1 * baseline_score.mean()

print(f"MAE Baseline Score: {baseline_score:.4}")

MAE Baseline Score: 8.232


<br/>
<p>Eğer evde yemek yapıyorsanız, bir tarifteki malzemelerin oranının, tarifin sonucunun mutlak miktarından daha iyi bir göstergesi olduğunu biliyor olabilirsiniz. O zaman yukarıdaki özelliklerin oranlarının CompressiveStrength'in iyi bir göstergesi olabileceğini düşünebiliriz.</p>
<br/>
<p>Aşağıdaki hücre veri setine üç yeni oran özelliği ekler.
</p>

In [6]:
X = df.copy()
y = X.pop("CompressiveStrength")

# Create synthetic features
X["FCRatio"] = X["FineAggregate"] / X["CoarseAggregate"]
X["AggCmtRatio"] = (X["CoarseAggregate"] + X["FineAggregate"]) / X["Cement"]
X["WtrCmtRatio"] = X["Water"] / X["Cement"]

# Train and score model on dataset with additional ratio features
model = RandomForestRegressor(criterion="absolute_error", random_state=0)
score = cross_val_score(
    model, X, y, cv=5, scoring="neg_mean_absolute_error"
)
score = -1 * score.mean()

print(f"MAE Score with Ratio Features: {score:.4}")

MAE Score with Ratio Features: 7.948


<p>Ve gerçekten de performans arttı! Bu, yeni oran özelliklerinin modele daha önce fark etmediği önemli bilgileri açığa çıkardığının kanıtıdır.</p>