## Makine Öğrenimi Projesi Bölüm-2

Bu çalışma örneğimizde "denetimli(supervised)" bir regresyon makinesi öğrenme problemi üzerinde çalışıyoruz. Gerçek dünyadaki New York şehri bina enerji verilerini kullanarak, bir binanın Enerji Yıldız Puanını tahmin etmek ve Yıldız Puanı'nı etkileyen faktörleri belirlemek istiyoruz.

Projemizi yapılandırmak için makine öğrenmesi aşamalarının genel taslağını kullanıyoruz:

     1. Veri temizleme ve biçimlendirme
     2. Keşifsel veri analizi
     3. Özellik mühendisliği ve seçimi
     4. Bir performans metriğinde çeşitli makine öğrenim modellerinin karşılaştırılması
     5. Problem için optimize etmek üzere en iyi modele hiperparametre ayarlaması yapılması
     6. Test seti üzerinde en iyi modelin değerlendirilmesi
     7. Model sonuçlarının mümkün olduğu kadar yorumlanması
     8. Sonuçların görselleştirilip ve iyi bir raporun yazılması
     
Serinin ilk bölümü yukarıda belirtilen adımların 1-2-3'ü kapsıyordu ve bu çalışmada 4-5-6'yı ele alacağız. Bu çalışmada, detaylardan ziyade uygulamalara daha çok odaklanıyoruz ve makine öğrenme yöntemleri konuları ile ilgili daha fazla detay arayanlar için, Aurelien Geron tarafından Scikit-Learn ve Tensorflow ile Hands-On Machine Learning  kiptalarını incelemelerini öneririm. Bu, algoritmaların arkasındaki temel teori için mükemmel bir kaynak ve bunları Python'da nasıl etkin bir şekilde kullanacaksınız bunları güzel bir şekilde açıklayor!

[Link ->](http://shop.oreilly.com/product/0636920052289.do)

İlgili Kütüphaneleri ekleyerek projemizi kodlamaya başlıyoruz:

Bu projede standart veri bilimi ve makine öğrenmesi kütüphanelerini kullanacağız.

In [1]:
#Verilerin işlenmesi için Pandas ve Numpy kütüphanelerini öncelikle ekliyoruz
import pandas as pd
import numpy as np

#Bölümler arasında hata uyarısı almamak için uyarıları kapatıyoruz
pd.options.mode.chained_assignment = None
pd.set_option('display.max_columns', 60)

#Görselleştirme için Matplotlib  ve seaborn kütüphanelerini ekliyoruz
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(font_scale = 2)

#Varsayılan font boyutunu belirtiyoruz
plt.rcParams['font.size'] = 24

from IPython.core.pylabtools import figsize

#Eksik değerleri ve ölçekleme değerlerini ekliyoruz
from sklearn.preprocessing import Imputer, MinMaxScaler

#Makine Öğrenmesi Modellerini ekliyoruz
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor

#Hiperparametre ayarlaması
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV

### Verileri Okuyoruz
Bir önceki çalışmamızdan edindiğimiz verileri okuyoruz

In [None]:
# Veriçerçevesinden verileri okuyoruz
train_features = pd.read_csv('data/training_features.csv')
test_features = pd.read_csv('data/testing_features.csv')
train_labels = pd.read_csv('data/training_labels.csv')
test_labels = pd.read_csv('data/testing_labels.csv')

test = pd.read_csv('train_features')
# Verilerin boyutlarını yazdırıyoruz
print('Eğitim verileri özellik boyutu: ', train_features.shape)
print('Test verileri özellik boyutu:  ', test_features.shape)
print('Eğitim etiketleri boyutu:  ', train_labels.shape)
print('Test etiketleri boyutu:   ', test_labels.shape)

Bir hatırlatma olarak, biçimlendirilmiş verilerin neye benzediğini burada bulabilirsiniz. İlk çalışma örneğinde, değişkenlerin doğal günlüğünü alarak, iki kategorik değişken içererek bir dizi özellik geliştirdik ve yüksek özellikli özellikleri kaldırarak bir özellik alt kümesi seçtik.

In [None]:
train_features.head(12)

Puan(Score) sütunu, makine öğrenim problemimiz için hedef olan Energy Yıldız Puanını içerir. Enerji Yıldız Puanının, bir binanın enerji verimliliğinin karşılaştırmalı bir ölçümü olduğu varsayılsa da, bunun birinci bölümde nasıl hesaplandığıyla ilgili sorunlar olabileceğini görmüştük!

İşte Energy Yıldız Puanının dağıtımı

In [None]:
figsize(8, 8)

#Enerji Yıldız Puanının Histogramı
plt.style.use('fivethirtyeight')
plt.hist(train_labels['score'].dropna(), bins = 100)
plt.xlabel('Puan');
plt.ylabel('Bina numaraları');
plt.title('Enerji Yıldı Puanı Dağılımı');

### Makine Öğrenim Modellerini Değerlendirme ve Karşılaştırma
Bu bölümde, denetimli regresyon görevimiz için çeşitli makine öğrenme yöntemleri oluşturup, eğitecek ve değerlendireceğiz. Amaç, geliştirme için hangi modelin daha fazla faydalı olduğunu belirlemektir (hiperparametre ayarı gibi).

Modelleri ortalama mutlak hata(MAE) metriğini kullanarak karşılaştırıyoruz. Puanın medyan değerini tahmin eden bir taban çizgisi modeli ortalama 25 puan olarak belirlendi.

### Eksik Değerleri Etkilemek
Standart makine öğrenim modelleri eksik değerlerle baş edemez ve bu da eksik değerleri olan herhangi bir özelliği doldurmak veya atmak için bir yol bulmamız gerektiği anlamına gelir. İlk kısımda% 50'den fazla eksik değer içeren özellikleri zaten kaldırdığımızdan, burada bu eksik değerleri doldurmaya odaklanacağız. İmputation için bir dizi yöntem var ama burada eksik değerleri sütunun ortancası ile değiştirmenin nispeten basit bir yöntemini kullanacağız. 

Aşağıdaki kodda, eksik değerleri sütunun medyanı ile doldurmak için bir Scikit Learn Imputer nesnesi oluşturuyoruz. Eğitim verisine (imputer.fit yöntemini kullanarak)değil, test verisine dikkat çektiğimize dikkat edin. Daha sonra hem eğitim verilerini hem de test verilerini dönüştürürüz (Imputer.transform kullanarak). Bu, test setindeki eksik değerlerin, eğitim setindeki ilgili sütunlarını medyan değeri ile doldurulduğu anlamına gelir. Bu şekilde yapmalıyız, çünkü konuşlandırma zamanında, önceki değerleri önceki eğitim verilerine dayanarak yeni gözlemlerde eksik değerler olarak kabul etmek zorundayız. Bu, test setindeki bilginin eğitim sürecine "sızdığı" veri sızıntısı olarak bilinen problemden kaçınmanın bir yoludur.

In [None]:
#Medyan doldurma stratesisi ile bir imputer nesnesi oluşturuyoruz
imputer = Imputer(strategy = 'median')

#Eğitim özellikleri üzerine uyguluyoruz
imputer.fit(train_features)

#Eğitim Ve Test verilerini dönüştürüyoruz
X = imputer.transform(train_features)
X_test = imputer.transform(test_features)

In [None]:
print('Eğitim verileri içerisindeki kayıp değerler: ', np.sum(np.isnan(X)))
print('Test verileri içerisindeki kayıp değerler:  ', np.sum(np.isnan(X_test)))

In [None]:
#Bütün Değerlerin sonlu olarak işlendiğinden emin olalım
print(np.where(~np.isfinite(X)))
print(np.where(~np.isfinite(X_test)))

Denemeden sonra, tüm özellikler gerçek değerlidir. Daha sofistike yöntemler için (medyan değerler genellikle iyi çalışıyor olsa da) bu makaleye göz atın. 
[Link](https://www.tandfonline.com/doi/full/10.1080/1743727X.2014.979146)

### Ölçekleme Özellikleri
Modellerimizi kurabilmemiz için atmamız gereken son adım, özellikleri ölçeklendirmektir. Özelliklerin farklı birimlerde olması nedeniyle bu gereklidir, özellikleri normalleştirmek ve birimlerin algoritmayı etkilememesi için bunu yapmak gerekiyor. Doğrusal Regresyon ve Rastgele Orman(Random Forest) özellik ölçekleme gerektirmez, ancak destek vektör makineleri(SVM) ve k yakın komşuları(kMeans) gibi diğer yöntemler, gözlemler arasındaki öklid mesafesini hesaba kattığı için bunu gerektirir. Bu nedenle, çoklu algoritmaları karşılaştırırken özellikleri ölçeklemek en iyi uygulamadır.

Özellikleri ölçeklendirmenin iki yolu vardır:

    1. Her bir değer için, özelliğin ortalamasını çıkarın ve özelliğin standart sapmasına bölün. Bu standardizasyon olarak bilinir ve her özellik ortalama 0'a ve standart sapmaya 1 sahiptir.
    2. Her bir değer için, özelliğin minimum değerini çıkartın ve maksimum eksi (özellik) için en düşük değere bölün. Bu durum, bir özellik için tüm değerlerin 0 ile 1 arasında olmasını ve bir aralık veya normalleştirmeye ölçeklendirilmesini sağlar.
    
İşte normalleşme ve standardizasyon hakkında [iyi bir makale](https://machinelearningmastery.com/normalize-standardize-machine-learning-data-weka/)

Ölçüde olduğu gibi, ölçekleme nesnesini eğitirken sadece eğitim setini kullanmak istiyoruz. Özellikleri dönüştürdüğümüzde, hem eğitim setini hem de test setini değiştireceğiz.

In [None]:
#0-1 değerlerinde bir ölçeklendirme nesnesi oluşturuyoruz
scaler = MinMaxScaler(features_range=(0, 1))

#Eğitim Verilerine uyguluyoruz
scaler.fit(X)

#Eğitim ve Test Verilrini dönüştürüyoruz
X = scaler.transform(X)
X_test = scaler.transform(X_test)

In [None]:
#Y'yi tek boyutlu vektöre dönüştürüyoruz
y = np.array(train_labels((-1, ))
y_test = np.array(test_labels).reshape((-1, ))


### Değerlendirilecek Modeller
Harika Scikit-Learn kütüphanesini kullanarak beş farklı makine öğrenim modelini karşılaştıracağız:

    1.Doğrusal Regresyon(Linear Regression)
    2.Destek Vektör Makinesi Regresyon(Support Vector Machine)
    3.Rastgele Orman Regresyonu(Random Forest Regression)
    4.Eğim Artırıcı Regresyon(Gradient Boosted REgression)
    5.K-En Yakın Komşular Regresyonu(K-Nearest Neighbors Regression)

Yine burada, bu modellerin nasıl çalıştığını açıklamak yerine uygulamaya odaklanıyoruz. Makine Öğrenim Modeline ek olarak, ekteki kaynağın faydalı olabileceğini düşünüyorum.(bu ücretsizdir), [İstatistiksel Öğrenmeye Giriş](http://www-bcf.usc.edu/~gareth/ISL/)


Modelleri karşılaştırmak  ve model hipermetreleri için çoğunlukla Scikit-Learn varsayılanlarını kullanacağız. Genel olarak bunlar düzenli bir performans sergileyecek, ancak bir model kullanmadan önce optimize edilmelidir. İlk başta, her modelin temel performansını belirlemek istiyoruz ve daha sonra hiperparametre ayarını kullanarak daha fazla optimizasyon için en iyi performans modelini seçiyoruz. Varsayılan hiperparametrelerin bir model oluşturup çalışacağını hatirlayalım, ancak problemimizde en iyi ayarları bulmak için hemen hemen her zaman bir çeşit arama kullanılarak  ilgili parametreler ayarlanmalıdır!

İşte Scikit-learn belgelerinin varsayılanlar hakkında söylediği şey:

__Sensible defaults__: Bir işlem her kullanıcı tarafından tanımlanmış bir parametre gerektirdiğinde,
Uygun bir varsayılan değer kütüphane tarafından tanımlanır. Varsayılan değer
Operasyonun mantıklı bir şekilde gerçekleştirilmesine neden olmalıdır (Eldeki görev için çözüm.)

Scikit-learn kütüphanesinin en iyi yönlerinden biri, tüm modellerin aynı şekilde uygulanmış olmasıdır: bir kez nasıl inşa edeceğinizi bildikten sonra, çok çeşitli modeller dizisi uygulayabilirsiniz. Burada sadece birkaç satırlık kodda bir dizi model için tüm eğitim ve test prosedürlerini uygulayacağız.

In [None]:
#Mutlak Ortalama Hatasını(MAE) hesaplama foksiyonu
def mae(y_true, y_pred):
    return np.mean(abs(y_true - y_pred))

#Bir Model alıp, modeli eğitip, hesplayıp ve test edeceğiz
def fit_and_evaluate(model):
    #Modeli Eğitiyoruz
    model.fit(X, y)
    
    #Modeli Tahmin edip hesaplıyoruz
    model_pred = model.predict(X_test)
    model_mae =mae(y_test, model_pred)
    
    #Performans metriğine geri dönüyoruz
    return model_mae


In [None]:
lt = LinearRegression()
lr_mae = fit_and_evaluate(lr)

print('Test Verileri üzerinde Doğrusal Regrasyon Performansı : MAE = %0.4f' % lr_mae)

In [None]:
svm = SVR(C = 1000, gamma = 0.1)
svm_mae = fit_and_evaluate(svm)

print('Test Verileri üzerinde Destek Vektör makinesi Regrasyon Performansı : MAE = %0.4f' % svm_mae)

In [None]:
random_forest = RandomForestRegressor(random_state=60)
random_forest_mae = fit_and_evaluate(random_forest)

print('Test Verileri üzerinde Rastgele Orman Regrasyon Performansı : MAE = %0.4f' % random_forest_mae)

In [None]:
gradient_boosted = GradientBoostingRegressor(random_state=60)
gradient_boosted_mae = fit_and_evaluate(gradient_boosted)

print('Test Verileri üzerinde Eğim Artırıcı Regresyon Performansı MAE = %0.4f' % gradient_boosted_mae)

In [None]:
knn = KNeighborsRegressor(n_neighbors=10)
knn_mae = fit_and_evaluate(knn)

print('Test verileri üzerinde K-Nearest Neighbors(En Yakın Komşu) Regression Performansı : MAE = %0.4f' % knn_mae)

In [None]:
plt.style.use('fivethirtyeight')
figsize(8, 6)

#Sonuçları veriçerçevesinde tutuyoruz
model_comparison = pd.DataFrame({'model' : ['Linear Regression', 'Support Vector Machine',
                                            'Random Forest', 'Gradient Boosted', 'K-Nearest Neighbors'],
                                'mae' : [lr_mae, svm_mae, random_forest_mae, gradien_boosted_mae,
                                        knn_mae]})
#Test mae için Yatay  grafik çubuğu 
model_comparison.sort_values('mae', ascending = False).plot(x = 'model', y = 'mae', kind = 'barh',
                                                           color = 'red', edgecolor = 'black')

#Biçimlendirme işlemini çizdiriyoruz
plt.ylabel(''); plt.ysticks(size = 14); 
plt.xlabel('Mutlak Ortalama Hata'); plt.xticks(size = 14)
plt.title('Test MAE üzerinde Model karşılaştırma işlemi', size = 20);


Koşula bağlı olarak (tam sonuçlar her seferinde hafifçe değişir), gradyan(eğim) artırma regresörü en iyi olanı rasgele ormanı izler. Bunun en adil karşılaştırma olmadığını kabul etmeliyim, çünkü çoğunlukla varsayılan hipermetreler kullanıyoruz. Özellikle Destek Vektör Regresörü ile hipermetreler, performans üzerinde önemli bir etkiye sahiptir. (rastgele orman ve eğim(gradient) yükseltme yöntemleri, performansın model ayarlarına daha az bağımlı olması nedeniyle başlatılmak için mükemmeldir). Bununla birlikte, bu sonuçlardan, makine modelinin uygulanabilir olduğu sonucuna varabiliriz çünkü tüm modeller ana hattan önemli ölçüde daha iyi performans gösterir!

Buradan, hyperparameter ayarını kullanarak en iyi modeli optimize etmeye konsantre olacağız. Buradaki sonuçlar göz önüne alındığında, GradientBoostingRegressor'u kullanmaya konsantre olacağız. Bu, son birkaç yılda birçok Kaggle yarışmalarını kazanan Gradient Boosted Trees'ın Scikit-Learn uygulamasıdır. Scikit-Learn sürümü genellikle XGBoost versiyonundan daha yavaştır, ancak burada söz dizimi daha tanıdık olduğundan Scikit-Learn'e bağlıyız. İşte, XGBoost paketinde uygulamayı kullanmak için birkaç link.

[link XGBoost](http://matthewemery.ca/Why-Kagglers-Love-XGBoost/)
[link Gradient Boosting](http://www.ccs.neu.edu/home/vip/teach/MLcourse/4_boosting/slides/gradient_boosting.pdf)
[link Kaggle Eğitim](https://www.kaggle.com/dansbecker/learning-to-use-xgboost)

### Model Optimizasyonu
Makine öğrenmesinde, bir modeli optimize etmek, belirli bir problem için en iyi hipermetre setini bulmak anlamına gelir.

##### Hiper Parametreler(Hyperparameters)
İlk olarak, model hipermetrelerinin ve model parametrelerinin ne olduğunu anlamaya ihtiyacımız var:

   - Model hipermetreleri, eğitimden önce veri bilimcisi tarafından ayarlanan bir makine öğrenme algoritması ayarları olarak düşünülür. Örnekler rastgele ormandaki ağaç sayısı veya K En Yakın Komşular Regresyonunda kullanılan komşuların sayısı olabilir.
   - Model parametreleri, modelin doğrusal regresyondaki ağırlıklar gibi eğitim sırasında neler öğrendiğidir.
   
Veribilimcilerin bir modeli hiperparametreleri seçerek kontrol etmelerini sağlıyoruz ve bu seçimler, modelin nihai performansı üzerinde önemli bir etkiye sahip olabilir (genellikle daha fazla veri veya mühendislik özelliği elde etmek gibi bir etki kadar büyük olmamakla birlikte).

Modelin hipermetrelerinin ayarlanması, bir modelde birbirine geçmenin dengesini kontrol eder. Rasgele bir ormanda daha fazla ağaç kullanmak veya derin bir sinir ağında daha çok katman kullanmak gibi daha karmaşık bir model oluşturarak yetersiz uyumu düzeltmeye çalışabiliriz. Uygun bir model, yüksek önyargıya sahiptir ve modelimiz, özellikler ve hedef arasındaki ilişkiyi öğrenmek için yeterli kapasiteye (serbestlik derecesi) sahip olmadığı zaman ortaya çıkar. Modelin karmaşıklığını sınırlandırarak ve düzenli hale getirerek aşırı donatmayı düzeltmeye çalışabiliriz. Bu, bir polinom regresyonunun derecesinin azaltılması ya da derin nöral bir ağa bırakma katmanlarının eklenmesi anlamına gelebilir. Overfits bir modelin yüksek varyansı vardır ve aslında eğitim setini ezberlemiştir. Hem underfitting hem de overfitting, test setindeki zayıf genelleme performansına yol açar.

Hiperparametrelerin seçilmesindeki problem, hiçbir setin tüm sorunlarda en iyi sonuç vermeyeceğidir. Bu nedenle, her yeni veri kümesi için en iyi ayarları bulmamız gerekiyor. Bu, zaman alıcı bir süreç olabilir, ancak neyse ki bu prosedürü Scikit-Learn'de gerçekleştirmek için birkaç seçenek vardır. Daha da iyisi, epistasis laboratuarları tarafından TPOT gibi yeni kütüphaneler, sizin için otomatik olarak bu işlemi yapmayı hedefliyor! Şimdilik, bunu Scikit-Learn'de manuel olarak yapmaya devam edeceğiz, ancak otomatik model seçimi ile ilgili bir makale için [link](https://epistasislab.github.io/tpot/)

## Rastgele Arama ve Çapraz Doğrulama ile Hipermetre Ayarı
Rastgele arama ve çapraz doğrulama yoluyla bir model için en iyi hiperparametreleri seçebiliriz.

Rastgele arama, değerlendirmek için hipermetreler seçtiğimiz yöntemi ifade eder: bir dizi seçenekleri tanımlar ve sonra denemek için rasgele kombinasyonları seçeriz. Bu, belirttiğimiz her bir kombinasyonu değerlendiren grid aramanın tersidir. Genel olarak, rastgele arama, en iyi model hipermetrelerle ilgili sınırlı bilgiye sahip olduğumuzda daha iyidir ve seçenekleri daraltmak için rasgele aramayı kullanabilir ve ardından daha sınırlı bir seçenek aralığına sahip grid aramasını kullanabiliriz.

Çapraz doğrulama, hiperparametrelerin performansını değerlendirmek için kullanılan yöntemdir. Eğitim setini, kullanabileceğimiz eğitim verilerinin miktarını azaltan ayrı eğitim ve doğrulama setlerine ayırmak yerine, K-Fold Cross Validation'ı kullanıyoruz. Bu, eğitim verilerinin K katlarına bölünmesi ve daha sonra kıvrımların K-1'i üzerinde ilk önce eğitim yaptığımız ve daha sonra kth katındaki performansı değerlendirdiğimiz yinelemeli bir süreçten geçmesi anlamına gelir. Bu süreci K kere tekrarlıyoruz, sonuç olarak, eğitim verisinde her örnek üzerinde test ettiğimiz her bir testin, üzerinde durmadığımız veriler üzerinde test ettiğimiz anahtarla test edeceğiz. K-katlama çapraz doğrulamasının sonunda, son ivme ölçüsü olarak K tekrarlamalarının her birinde ortalama hatayı alıp, tüm eğitim verilerinin modelini bir kerede eğitiyoruz. Kaydettiğimiz performans daha sonra hiperparametrelerin farklı kombinasyonlarını karşılaştırmak için kullanılır. K = 5 kullanılarak k-kat çapraz doğrulamanın bir resmi aşağıda gösterilmiştir:

![kfold_cv.png](attachment:kfold_cv.png)

Burada gradyan artırma regresörü ve optimal hiperparametreler seçmek için çapraz doğrulama ile rasgele arama uygulayacağız. Öncelikle bir ızgarayı(grid) tanımlarız ve sonra bu durum tekrarlayan bir süreç oluşturur: Şebekeden rasgele bir hiperparametreler kümesini örneklenir, 4-kat çapraz doğrulama kullanarak hiperparametreleri değerlendirlendirilir ve daha sonra en iyi performans ile hiperparametreler seçilir.

Elbette bu yinelemeyi kendimiz yapmıyoruz, Scikit-Learn ve RandomizedSearchCV'nin bizim için süreci yapmasına izin veriyoruz!

In [None]:
#Kayıp Fonksiyonu optimize(en uygun hale getiriyoruz)
loss = ['ls', 'lad', 'huber']

#Artırma işleminde kullanılan  ağaç sayısı
n_estimators = [100, 500, 900, 1100, 1500]

#Her bir ağacın maksimum derinliği
max_depth =[2, 3, 5, 10, 15]

#Her bir yaprak için minimum örnek sayısı
min_samples_leaf = [1, 2, 4, 6, 8]

#node'lardan ayrılan örneklerin minimum  numaraları
min_samples_split = [2, 4, 6, 10]

# Bölümleri yapmak  için dikkate alınacak maksimum özellik sayısı
max_features = ['auto', 'sqrt', 'log2', None]

#Hiperparemetreleri aramak için bir grid tanımlıyoruz
hyperparameter_grid = {'loss': loss,
                       'n_estimators': n_estimators,
                       'max_depth': max_depth,
                       'min_samples_leaf': min_samples_leaf,
                       'min_samples_split': min_samples_split,
                       'max_features': max_features}

Eğim artırıcı regresörü ayarlamak için 6 farklı hiperparametre seçtik. Bunların hepsi, modelin zamanını önceden belirlemenin zor olduğu farklı şekillerde etkileyecek ve belirli bir problem için en iyi kombinasyonu bulmanın tek yolu onları test etmektir! Hipermetreler hakkında bilgi edinmek için, Scikit-Learn belgelerine bir göz atmanızı öneriyorum. Şimdilik, en iyi hipermetreler kombinasyonunu bulmaya çalıştığımızı ve bize en iyi çalışacakları bir teori olmadığından, sadece bir deneme yapmak gibi bunları değerlendirmemiz gerektiğini biliyoruz.

Kodumuz ile, aşağıdaki parametrelerden geçen Randomized Search Object'i oluşturuyoruz.

    tahmincisi: model
    param_distributions: tanımladığımız parametrelerin dağılımı
    k katlama çapraz doğrulaması için kullanılacak kat sayısı
    n_iter: denenecek farklı kombinasyonların sayısı
    puanlama: adayları değerlendirirken kullanılacak metrik
    n_jobs: paralel olarak çalışacak çekirdek sayısı (-1 tüm uygun olanlar kullanılabilir)
    ayrıntılı: görüntülenecek ne kadar bilgi (1 sınırlı bir miktar gösterir)
    return_train_score: her çapraz doğrulama katlaması için eğitim puanını döndür
    random_state: kullanılan rasgele sayı üreticisini düzeltir, böylece her koşuda aynı sonuçları alırız

Randomize Arama Nesnesi, diğer scikit-learn modelleriyle aynı şekilde eğitilmiştir. Eğitimden sonra, tüm farklı hiperparametre kombinasyonlarını karşılaştırabilir ve en iyi performansa sahip olanı bulabiliriz.

In [None]:
#Hiperparametre ayarlamak için bir model oluşturuyoruz
model = GradientBoostingRegressor(random_state = 42)

#4-fold çapraz doğrulama için rastgele aramayı ayarlıyoruz
random_cv = RandomizedSearchCV(estimator = model,
                              param_distributions = hyperparameter_grid,
                              cv = 4, n_iter = 25,
                              scoring = 'neg_mean_absolute_error',
                              n_jobs = -1, verbose = 1,
                              return_train_score = True,
                              random_state = 42)


In [None]:
# Eğitim verisine uyguluyoruz
random_cv.fit(X, y)

Scikit-learn, değerlendirme için negatif ortalama mutlak hatasını kullanır çünkü bir metriği en üst düzeye çıkarmak ister. Bu nedenle, daha iyi bir puan 0'a yakın olacaktır. Rastgele arama sonuçlarını bir veri çerçevesine alabiliriz ve değerleri performansa göre sıralayabiliriz.

In [None]:
Bütün Cv sonuçlarını alıp test performanslarına göre sıralıyoruz
random_results = pd.DataFrame(random_cv.cv_results_).sort_values('mean_test_score', ascending = False)

random_results.head(10)

In [None]:
random_cv.best_estimator_

En iyi eğim artırma modeli(gradient boosted model) aşağıdaki parametreler ile elde ediliyor:

DİKKATTT bu değerler çıktı sonuçlarına göre düzenlenecek

loss = lad
n_estimators = 500
max_depth = 5
min_samples_leaf = 6
min_samples_split = 6
max_features = None (This means that max_features = n_features according to the docs)

Rastgele arama kullanmak, denemek için olası hiperparametreleri daraltmak adına iyi bir yöntemdir. Başlangıçta, hangi kombinasyonun en iyi işe yarayacağı hakkında hiçbir fikrimiz yoktu, ama bu en azından seçeneklerimizi  azaltıyor.

Rastgele arama sonuçları, rasgele arama sırasında en iyi çalışanlara yakın hipermetrelerle bir grid oluşturarak bir şebeke aramasını bildirmek için kullanabiliriz. Ancak, tüm bu ayarları tekrar değerlendirmek yerine, ormandaki ağaçlara (n_estimatörler)'e yani tek bir noktaya odaklanacağım. Sadece bir hiperparametre değiştirerek, performansı nasıl etkilediğini doğrudan gözlemleyebiliriz. Ağaçların sayısının fazla olması durumunda, aşırı havaya kaçma miktarında önemli bir etki görmeyi bekliyoruz.

Burada sadece n_estimators hiperparametreye sahip bir grid ile ızgara arama(grid search) kullanacağız. Bir dizi ağaç değerlendireceğiz ve daha sonra modelimizin ağaç sayısını arttırmanın ne olduğuna dair bir fikir edinmek için eğitim ve test performansını çizdirelim. Ağaç etkisinin sayısını azaltmak için diğer hiperparametrelerin rasgele aramayla döndürülen en iyi değerlere sabitlenmesini sağlayacağız.

In [None]:
#Ağaçları hesaplamak için bir aralık belirliyoruz
trees_grid = {'n_estimators': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800]}

model = GradientBoostRegressor(loss = 'lad', max_depth = 5,
                              min_samples_leaf = 6,
                              min_samples_split = 6,
                              max_features = None,
                              random_state = 42)

#Ağaç aralığını ve rastgele orman modelini kullanan Izgara Arama Nesnesi
grid_search = GridSearchCV(estimator = model, param_grid = trees_grid, cv = 4,
                          scoring = 'neg_mean_absolute_error', verbose = 1,
                          n_jobs = -1, return_train_score = True)


In [None]:
#grid search uyarlıyoruz
grid_search.fit(X, y)

In [None]:
#Veri seti içindeki sonuçları alıyoruz
results = pd.DataFrame(grid_search.cv_results_)

# Ağaç sayılarının eğitim ve test hatalarının çizdiriyoruz
figsize(8, 8)
plt.style.use('fivethirtyeight')
plt.plot(results['param_n_estimators'], -1 * results['mean_test_score'], label = 'Testing Error')
plt.plot(results['param_n_estimators'], -1 * results['mean_train_score'], label = 'Training Error')
plt.xlabel('Ağaç Sayısı'); plt.ylabel('Mutlak Ortalama Hata'); plt.legend();
plt.title('Ağaçların Performansı Eğrisi');

results.sort_values('mean_test_score', ascending = False).head(5)

DİKKATT-Sonuçlara göre yorumu düzenleyeceğiz
Bu sonuçlarda, modelimizin aşırı derecede uygun olduğu gayet açık! Eğitim hatası, test hatasından önemli ölçüde daha düşüktür, bu da modelin eğitim verilerini çok iyi öğrendiğini, ancak test verilerini de genelleştiremediğini gösterir. Taşınma, ağaç sayısı arttıkça, aşırı yakma miktarı artar. Ağaç sayısı arttıkça hem test hem de eğitim hatası azalır, ancak eğitim hatası daha hızlı azalır.

Eğitim hatası ile test hatası arasında her zaman bir fark olacaktır (eğitim hatası her zaman daha düşüktür), fakat eğer önemli bir fark varsa, daha fazla eğitim verisi alarak ya da modelin karmaşıklığını azaltarak aşırı takmayı denemek ve azaltmak istiyoruz. Hiperparametre ayarlaması veya düzenlenmesi ile eğim artırıcı regresör için, bazı seçenekler; ağaç sayısını azaltmak, her ağacın maksimum derinliğini azaltmak ve bir yaprak düğümündeki minimum örnek sayısını arttırmaktır. Gradient artırma regresörü için daha fazla bilgi edinmek isteyen herkes için harika bir makale aşağıda verilmiştir. Şimdilik modeli en iyi performansla kullanacağız ve eğitim setine yakışabileceğini kabul edeceğiz.

Çapraz doğrulama sonuçlarına dayanarak, en iyi model 800 ağaç kullanır ve 9'un altında bir çapraz doğrulama hatası elde eder. Bu, Energy Star Skorunun ortalama çapraz doğrulama tahmininin gerçek cevabın 9 puanı içinde olduğunu gösterir!

[gradient boosting regressor,](https://www.quora.com/How-do-you-correct-for-overfitting-for-a-Gradient-Boosted-Machine)
[Güzel bir makale](http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/)

##  Seçtiğimiz Modeli Test Setinde Değerlendiriyoruz
Test setinde tahmin yapmak için hiperparametre ayarından en iyi modeli kullanacağız. Unutmayın, modelimiz test setindeki verileri daha önce hiç görmemişti, bu yüzden bu performans, modelin gerçek dünyada konuşlandırıldığında nasıl bir performans sergileyeceğinin iyi bir göstergesi olmalıdır.

Karşılaştırma için, varsayılan modelin performansına da bakabiliriz. Aşağıdaki kod, son modeli oluşturur, onu (zamanlama ile) eğitir ve test setinde değerlendirir.

In [None]:
#Varsayılan model
default_model = GradientBoostingRegressor(random_state = 42)

#En iyi modeli seçiyoruz
final_model = grid_search.best_estimator_

final_model

In [None]:
%%timeit -n 1 -r 5
default_model.fit(X, y)

In [None]:
%%timeit -n 1 -r 5
final_model.fit(X, y)

In [None]:
default_pred = default_model.predict(X_test)
final_pred = final_model.predict(X_test)

print('Test verileri üzerinde Varsayılan model performansı: MAE = %0.4f.' % mae(y_test, default_pred))
print('Test verileri üzerinde Seçtiğimiz modelin performansı :   MAE = %0.4f.' % mae(y_test, final_pred))

Son model, taban çizgisi modelini yaklaşık% 10 oranında gerçekleştirir, ancak çalışma süresinin önemli ölçüde artmasıyla (makinemde yaklaşık 12 kat daha yavaş). Makine öğrenimi genellikle bir zorunluluk alanıdır: sapma vs varyans, akıcılık vs yorumlanabilirlik, doğruluk ile çalışma süresi ve hangi modelin kullanılacağına dair nihai karar duruma bağlıdır. Burada, çalışma süresindeki artış bir engel değildir, çünkü nispi farklılık büyük iken, eğitim süresinin mutlak büyüklüğü önemli değildir. Farklı bir durumda, denge aynı olmayabilir, bu yüzden optimizasyon için ne yaptığımızı ve üzerinde çalışmak zorunda olduğumuz sınırlamaları göz önünde bulundurmalıyız.

Tahminleri anlamak için test setindeki gerçek değerlerin dağılımını ve test setindeki tahmini değerleri çizebiliriz.

In [None]:
figsize(8, 8)

# Test verileri üzerinde final tahminler ve yoğunluk grafiği
sns.kdeplot(final_pred, label = 'Predictions')
sns.kdeplot(y_test, label = 'Values')

# Çizimin etiketleri
plt.xlabel('Enerji Yıldız Puanı'); 
plt.ylabel('Yoğunluk');
plt.title('Tahminler ve Test Değerleri');

Dağılım, tahmin edilen değerlerin yoğunluğunun, 100 değerindeki gerçek zirveden ziyade test değerlerinin ortancaya yakın olmasına rağmen, neredeyse aynı görünmektedir. Görünüşe göre, model, aşırı değerleri tahmin etmede daha az doğru olabilir ve bunun yerine değerleri tahmin eder. medyan daha yakın.

Diğer bir tanı planı, artıkların histogramıdır. İdeal olarak, artıkların normal olarak dağılmasını umarız, yani modelin her iki yönünde de aynı miktarda yanlış olmasını bekleriz.

In [None]:
figsize = (6, 6)

# Kalıntıları hesaplıyoruz(residual)
residuals = final_pred - y_test

# Kalıntıların histogramını çizdiriyoruz
plt.hist(residuals, color = 'red', bins = 20,
         edgecolor = 'black')
plt.xlabel('Hata'); 
plt.ylabel('Sayı')
plt.title('Artıkların Dağılımı');

Kalıntılar, normal dağılıma yakındır, düşük uçta birkaç fark edilebilir aykırı durumlar olabilir. Bunlar, model tahmininin gerçek değerin çok altında olduğu hataları gösterir.

### Sonuç 
Bu çalışmamızda, makine öğrenme  aşamalarının önemli kavramlarını ele aldık:

  - Eksik değerlerin eklenmesi
  - Çeşitli makine öğrenme yöntemlerinin değerlendirilmesi ve karşılaştırılması
  - Rasgele arama ve çapraz doğrulama kullanarak bir makine öğrenme modeli için hiperparametre ayarlama
  - Test setindeki en iyi modelin değerlendirilmesi

Sonuçlar bize, makine öğreniminin problemimize uygulanabileceğini, son modelin bir binanın Enerji Yıldızı Puanını 9.1 puan olarak tahmin edebildiğini gösterdi. Ayrıca, hyperparamter tuning'in, modelin performansını iyileştirmek için zaman harcadığı ve zaman açısından önemli bir maliyete sahip olduğunu da gördük. Bu, uygun özellik mühendisliğinin ve daha fazla veri toplamanın (mümkünse!) modelin ince ayarından çok daha büyük bir ödeme yapmasının iyi bir hatırlatıcısıdır. Makine öğrenim modellerini tasarlarken göz önünde bulundurmamız gereken pek çok faktörden biri olan, zamana karşı çalışma zamanındaki doğruluğu da gözlemledik.

Modelimizin doğru olduğunu biliyoruz, ancak tahminlerin neden yapıldığını biliyor muyuz? Makine öğrenim sürecindeki bir sonraki adım çok önemlidir: modelin tahminleri nasıl yaptığını anlamaya çalışmak ve yüksek doğruluk elde etmek harikadır, ancak modelin neden doğru bir şekilde tahmin edilebileceğini anlayabildik mi, bu bilgiyi problemi daha iyi anlamak için kullanabileceğimiz konusunda da yardımcı olabiliriz. Örneğin, model Enerji Yıldızı Puanını bulmak için hangi özelliklere güveniyor? Bu modeli özellik seçimi için kullanmak ve daha yorumlanabilir olan daha basit bir model uygulamak mümkün mü?

Son çalışmamızda, bu soruları yanıtlamaya ve projeden nihai sonuçları çıkarmaya çalışacağız!