# Dropout and Batch Normalization

Deep learning dünyası sadece dense layer'lardan ibaret değil. Bir modele ekleyebileceğiniz düzinelerce layer türü var. (Örnek için Keras dokümanlarına göz atabilirsiniz!) Bazıları dense layer'lar gibi neuron'lar arasındaki bağlantıları tanımlarken, diğerleri preprocessing veya başka türde dönüşümler yapabilir.

Bu derste, kendi içlerinde neuron içermeyen, ancak bir modele çeşitli şekillerde fayda sağlayabilen iki özel layer türünü öğreneceğiz. Her ikisi de modern mimarilerde yaygın olarak kullanılmaktadır.

Bunlardan ilki, overfitting'i düzeltmeye yardımcı olabilen "dropout layer"dır.

Geçen derste, overfitting'in network'ün training data'daki sahte pattern'ları öğrenmesinden kaynaklandığından bahsetmiştik. Bu sahte pattern'ları tanımak için network genellikle çok spesifik weight kombinasyonlarına, bir tür weight "conspiracy"sine güvenir. Bu kadar spesifik oldukları için kırılgandırlar: birini kaldırırsanız conspiracy çöker.

Dropout'un arkasındaki fikir budur. Bu conspiracy'leri (komplo) bozmak için, eğitimin her adımında bir layer'ın input unit'lerinin bir kısmını rastgele düşürürüz. Bu, network'ün training data'daki sahte pattern'ları öğrenmesini zorlaştırır. Bunun yerine, weight pattern'ları daha sağlam olan geniş, genel pattern'lar aramak zorunda kalır.

![](image17.png)

Dropout'u bir tür network ensemble'ı oluşturma olarak da düşünebilirsiniz. Tahminler artık tek bir büyük network tarafından değil, daha küçük network'lerden oluşan bir komite tarafından yapılır. Komitedeki bireyler genellikle farklı türde hatalar yapar, ancak aynı zamanda doğru olurlar. Bu da komiteyi bir bütün olarak herhangi bir bireyden daha iyi yapar. (Eğer random forest'ların decision tree'lerin bir ensemble'ı olduğu fikrine aşinaysanız, aynı fikirdir.)

Eng.

You could also think about dropout as creating a kind of ensemble of networks. The predictions will no longer be made by one big network, but instead by a committee of smaller networks. Individuals in the committee tend to make different kinds of mistakes, but be right at the same time, making the committee as a whole better than any individual. (If you're familiar with random forests as an ensemble of decision trees, it's the same idea.)

Keras'ta, dropout rate argümanı rate, kapatılacak input unit'lerinin yüzdesini tanımlar. Dropout layer'ı, dropout'un uygulanmasını istediğiniz layer'dan hemen önce yerleştirin:

In [1]:
'''keras.Sequential([
    # ...
    layers.Dropout(rate=0.3),
    layers.Dense(16),
    # ...
])'''

'keras.Sequential([\n    # ...\n    layers.Dropout(rate=0.3),\n    layers.Dense(16),\n    # ...\n])'

Bu örnekte, Dense layer'a giden input'ların %30'u rastgele kapatılacaktır. Dropout genellikle %20 ile %50 arasında ayarlanır, ancak en iyi değer probleme ve modele bağlı olarak değişebilir.

Verilerin normalize edilmesi neden önemli? Neural network'lerde, verileri ortak bir ölçeğe getirmek, modelin daha iyi ve dengeli bir şekilde öğrenmesini sağlar. Örneğin, StandardScaler veya MinMaxScaler gibi araçlar, verileri network'e girmeden önce normalleştirir, yani her bir özelliği (feature) belli bir ölçeğe getirir. Bu, özellikle Stokastik Gradyan İnişi (SGD) algoritmasının ağırlıkları daha tutarlı bir şekilde güncellemesi için önemlidir. Eğer veriler çok farklı büyüklüklerde olursa, model dengesiz bir şekilde öğrenebilir.

Batch normalization nedir? Verileri network'e girmeden önce normalize etmek iyi bir uygulamadır. Ancak, batch normalization (batchnorm) bunu modelin içinde yapar. Yani model, her bir batch (küçük veri grubu) için verileri kendi ortalaması ve standart sapmasına göre normalize eder. Sonrasında, bu verileri iki tane öğrenilebilir parametre kullanarak yeni bir ölçeğe koyar. Bu da modelin içindeki her aşamada verilerin dengeli kalmasını sağlar.

Batch normalization'ın faydaları:

Eğitim sürecini hızlandırabilir. Batch normalization içeren modeller genellikle daha az epoch (döngü) ile eğitimi tamamlar.
Eğitim sırasında oluşabilecek sorunları çözebilir. Özellikle modelin takıldığı veya öğrenmekte zorlandığı durumlarda batch normalization kullanmak faydalı olabilir.
Özetle, batch normalization hem eğitim sürecini optimize eder hem de modelin daha dengeli ve tutarlı bir şekilde öğrenmesine yardımcı olur. Eğer modelini eğitirken yavaşlama veya sorunlarla karşılaşıyorsan, batch normalization eklemeyi düşünebilirsin.

**Adding Batch Normalization**

Bir katmandan hemen sonra eklenebilir:

In [2]:
# layers.Dense(16, activation='relu'),
# layers.BatchNormalization(),

veya katman ve aktivasyon fonksiyonunun arasına eklenebilir.

In [3]:
# layers.Dense(16),
# layers.BatchNormalization(),
# layers.Activation('relu'),

Ve eğer bunu ağınızın ilk katmanı olarak eklerseniz, Sci-Kit Learn'in StandardScaler'ı gibi bir şeyin yerini alarak bir tür uyarlanabilir ön işlemci olarak işlev görebilir.

# ÖRNEK