## Deep neural network concepts

Before exploring how to train a deep neural network (DNN) machine learning model, let's consider what we're trying to achieve. [Derin sinir ağı (DNN) makine öğrenimi modelinin nasıl eğitileceğini keşfetmeden önce, neyi başarmaya çalıştığımızı düşünelim.] Machine learning is concerned with predicting a label based on some features of a particular observation. [Makine öğrenimi, belirli bir gözlemin bazı özelliklerine dayalı olarak bir etiketin tahmin edilmesiyle ilgilenir.] In simple terms, a machine learning model is a function that calculates [Basit bir ifadeyle, bir makine öğrenimi modeli, hesaplayan bir fonksiyondur.] y (the label) from x (the features): f(x)=y.

### A simple classification example

For example, suppose your observation consists of some measurements of a penguin.

![image.png](attachment:image.png)

Specifically, the measurements are: [Spesifik olarak, ölçümler şunlardır:]

- The length of the penguin's bill. [Penguen faturasının uzunluğu.]

- The depth of the penguin's bill. [Penguenin gagasının derinliği.]

- The length of the penguin's flipper. [Penguen paletinin uzunluğu.]

- The penguin's weight. [Penguenin ağırlığı.]

In this case, the features (x) are a vector of four values, or mathematically, [Bu durumda, özellikler (x) dört değerden oluşan bir vektördür veya matematiksel olarak,] x=[x1,x2,x3,x4].

Let's suppose that the label we're trying to predict (y) is the species of the penguin, and that there are three possible species it could be: [Tahmin etmeye çalıştığımız (y) etiketinin penguenin türü olduğunu ve üç olası türün olabileceğini varsayalım:]

- Adelie [adelie]

- Gentoo [gentoo]

- Chinstrap [çene kayışı]

This is an example of a classification problem, in which the machine learning model must predict the most probable class to which the observation belongs. [Bu, makine öğrenimi modelinin gözlemin ait olduğu en olası sınıfı tahmin etmesi gereken bir sınıflandırma problemine bir örnektir.] A classification model accomplishes this by predicting a label that consists of the probability for each class. [Bir sınıflandırma modeli bunu, her sınıf için olasılıklardan oluşan bir etiket tahmin ederek başarır.] In other words, y is a vector of three probability values; one for each of the possible classes [Başka bir deyişle, y, üç olasılık değerinden oluşan bir vektördür; olası sınıfların her biri için bir tane] : y=[P(0),P(1),P(2)].

You train the machine learning model by using observations for which you already know the true label. [Gerçek etiketini zaten bildiğiniz gözlemleri kullanarak makine öğrenimi modelini eğitirsiniz.] For example, you may have the following feature measurements for an Adelie specimen: [Örneğin, bir Adelie numunesi için aşağıdaki özellik ölçümlerine sahip olabilirsiniz:]
x=[37.3, 16.8, 19.2, 30.0]

You already know that this is an example of an Adelie (class 0), so a perfect classification function should result in a label that indicates a 100% probability for class 0, and a 0% probability for classes [Bunun bir Adelie (sınıf 0) örneği olduğunu zaten biliyorsunuz, bu nedenle mükemmel bir sınıflandırma işlevi, sınıf 0 için %100 olasılık ve sınıflar için %0 olasılık gösteren bir etiketle sonuçlanmalıdır.] 1 and 2:

y=[1, 0, 0]

### A deep neural network model

So how would we use deep learning to build a classification model for the penguin classification model? [Peki penguen sınıflandırma modeli için bir sınıflandırma modeli oluşturmak için derin öğrenmeyi nasıl kullanırız?] Let's look at an example: [Bir örneğe bakalım:]

![image-2.png](attachment:image-2.png)

The deep neural network model for the classifier consists of multiple layers of artificial neurons. [Sınıflandırıcı için derin sinir ağı modeli, çoklu yapay nöron katmanlarından oluşur.] In this case, there are four layers: [Bu durumda, dört katman vardır:]

- An input layer with a neuron for each expected input (x) value. [Beklenen her giriş (x) değeri için bir nöron içeren bir giriş katmanı.]

- Two so-called hidden layers, each containing five neurons. [Her biri beş nöron içeren iki gizli katman.]

- An output layer containing three neurons - one for each class probability (y) value to be predicted by the model. [Model tarafından tahmin edilecek her sınıf olasılık (y) değeri için bir tane olmak üzere üç nöron içeren bir çıktı katmanı.]

Because of the layered architecture of the network, this kind of model is sometimes referred to as a multilayer perceptron. [Ağın katmanlı mimarisi nedeniyle, bu tür bir modele bazen çok katmanlı algılayıcı denir.] Additionally, notice that all neurons in the input and hidden layers are connected to all neurons in the subsequent layers - this is an example of a fully connected network. [Ek olarak, giriş ve gizli katmanlardaki tüm nöronların sonraki katmanlardaki tüm nöronlara bağlı olduğuna dikkat edin - bu tam bağlantılı bir ağa bir örnektir.]

When you create a model like this, you must define an input layer that supports the number of features your model will process, and an output layer that reflects the number of outputs you expect it to produce. [Bunun gibi bir model oluşturduğunuzda, modelinizin işleyeceği özellik sayısını destekleyen bir girdi katmanı ve üretmesini beklediğiniz çıktı sayısını yansıtan bir çıktı katmanı tanımlamanız gerekir.] You can decide how many hidden layers you want to include and how many neurons are in each of them; but you have no control over the input and output values for these layers - these are determined by the model training process. [Kaç tane gizli katman eklemek istediğinize ve bunların her birinde kaç nöron olduğuna karar verebilirsiniz; ancak bu katmanlar için giriş ve çıkış değerleri üzerinde hiçbir kontrolünüz yoktur - bunlar model eğitim süreci tarafından belirlenir.]

### Training a deep neural network

The training process for a deep neural network consists of multiple iterations, called epochs. [Derin bir sinir ağı için eğitim süreci, dönemler adı verilen çoklu yinelemelerden oluşur.] For the first epoch, you start by assigning random initialization values for the weight (w) and bias b values. [İlk dönem için ağırlık (w) ve sapma b değerleri için rastgele başlatma değerleri atayarak başlarsınız.] Then the process is as follows: [Daha sonra süreç şu şekildedir:]

1. Features for data observations with known label values are submitted to the input layer. [Bilinen etiket değerlerine sahip veri gözlemleri için özellikler girdi katmanına gönderilir.] Generally, these observations are grouped into batches (often referred to as mini-batches). [Genel olarak, bu gözlemler gruplar halinde gruplandırılır (genellikle mini partiler olarak adlandırılır).]

2. The neurons then apply their function, and if activated, pass the result onto the next layer until the output layer produces a prediction. [Nöronlar daha sonra işlevlerini uygular ve eğer etkinleştirilirse, çıktı katmanı bir tahmin üretene kadar sonucu bir sonraki katmana iletir.]

3. The prediction is compared to the actual known value, and the amount of variance between the predicted and true values (which we call the loss) is calculated. [Tahmin, bilinen gerçek değerle karşılaştırılır ve tahmin edilen ve gerçek değerler (kayıp dediğimiz) arasındaki varyans miktarı hesaplanır.]

4. Based on the results, revised values for the weights and bias values are calculated to reduce the loss, and these adjustments are backpropagated to the neurons in the network layers. [Sonuçlara dayalı olarak, ağırlıklar ve bias değerleri için revize edilmiş değerler, kaybı azaltmak için hesaplanmakta ve bu ayarlamalar ağ katmanlarındaki nöronlara geri yayılmaktadır.]

5. The next epoch repeats the batch training forward pass with the revised weight and bias values, hopefully improving the accuracy of the model (by reducing the loss). [Bir sonraki dönem, gözden geçirilmiş ağırlık ve sapma değerleriyle toplu eğitim ileri geçişini tekrarlar ve umarız modelin doğruluğunu artırır (kaybı azaltarak).]

**Note**

Processing the training features as a batch improves the efficiency of the training process by processing multiple observations simultaneously as a matrix of features with vectors of weights and biases. [Eğitim özelliklerini toplu olarak işlemek, birden çok gözlemi ağırlık ve önyargı vektörleriyle bir özellik matrisi olarak aynı anda işleyerek eğitim sürecinin verimliliğini artırır.] Linear algebraic functions that operate with matrices and vectors also feature in 3D graphics processing, which is why computers with graphic processing units (GPUs) provide significantly better performance for deep learning model training than central processing unit (CPU) only computers. [Matrisler ve vektörlerle çalışan doğrusal cebirsel işlevler, 3B grafik işlemede de yer alır; bu nedenle, grafik işleme birimlerine (GPU'lar) sahip bilgisayarlar, derin öğrenme modeli eğitimi için yalnızca merkezi işlem birimi (CPU) olan bilgisayarlardan önemli ölçüde daha iyi performans sağlar.]

### A closer look at loss functions and backpropagation

The previous description of the deep learning training process mentioned that the loss from the model is calculated and used to adjust the weight and bias values. [Derin öğrenme eğitim sürecinin önceki açıklaması, modeldeki kaybın hesaplandığından ve ağırlık ve yanlılık değerlerini ayarlamak için kullanıldığından bahsetmişti.] How exactly does this work? [Bu tam olarak nasıl çalışıyor?]

### Calculating loss

Suppose one of the samples passed through the training process contains features of an Adelie specimen (class 0). [Eğitim sürecinden geçen örneklerden birinin bir Adelie örneğinin (sınıf 0) özelliklerini içerdiğini varsayalım.] The correct output from the network would be [1, 0, 0]. [Ağdan doğru çıktı [1, 0, 0] olacaktır.] Now suppose that the output produced by the network is [0.4, 0.3, 0.3]. [Şimdi, ağ tarafından üretilen çıktının [0.4, 0.3, 0.3] olduğunu varsayalım.] Comparing these, we can calculate an absolute variance for each element (in other words, how far is each predicted value away from what it should be) as [0.6, 0.3, 0.3]. [Bunları karşılaştırarak, her eleman için mutlak bir varyansı (diğer bir deyişle, tahmin edilen her değerin olması gerekenden ne kadar uzakta olduğunu) [0.6, 0.3, 0.3] olarak hesaplayabiliriz.]

In reality, since we're actually dealing with multiple observations, we typically aggregate the variance - for example by squaring the individual variance values and calculating the mean, so we end up with a single, average loss value, like 0.18. [Gerçekte, aslında birden çok gözlemle uğraştığımız için, tipik olarak varyansı topluyoruz - örneğin bireysel varyans değerlerinin karesini alarak ve ortalamayı hesaplayarak, böylece 0,18 gibi tek bir ortalama kayıp değeri elde ederiz.]

### Optimizers

Now, here's the clever bit. [Şimdi, işte zekice olan kısım.] The loss is calculated using a function, which operates on the results from the final layer of the network, which is also a function. [Kayıp, aynı zamanda bir fonksiyon olan ağın son katmanından elde edilen sonuçlar üzerinde çalışan bir fonksiyon kullanılarak hesaplanır.] The final layer of network operates on the outputs from the previous layers, which are also functions. [Ağın son katmanı, aynı zamanda işlevler olan önceki katmanların çıktıları üzerinde çalışır.] So in effect, the entire model from the input layer right through to the loss calculation is just one big nested function. [Yani aslında, girdi katmanından kayıp hesaplamasına kadar tüm model yalnızca büyük bir iç içe işlevdir.] Functions have a few really useful characteristics, including: [İşlevler, aşağıdakiler de dahil olmak üzere gerçekten yararlı birkaç özelliğe sahiptir:]

- You can conceptualize a function as a plotted line comparing its output with each of its variables. [Bir işlevi, çıktısını değişkenlerinin her biriyle karşılaştıran çizilmiş bir çizgi olarak kavramsallaştırabilirsiniz.]

- You can use differential calculus to calculate the derivative of the function at any point with respect to its variables. [Değişkenlere göre herhangi bir noktada fonksiyonun türevini hesaplamak için diferansiyel hesabı kullanabilirsiniz.]

Let's take the first of these capabilities. [Bu yeteneklerden ilkini ele alalım.] We can plot the line of the function to show how an individual weight value compares to loss, and mark on that line the point where the current weight value matches the current loss value. [Bireysel ağırlık değerinin kayıpla nasıl karşılaştırıldığını göstermek için fonksiyonun satırını çizebiliriz ve bu satırda mevcut ağırlık değerinin mevcut kayıp değeriyle eşleştiği noktayı işaretleyebiliriz.]

![image-3.png](attachment:image-3.png)

Now let's apply the second characteristic of a function. [Şimdi bir fonksiyonun ikinci özelliğini uygulayalım.] The derivative of a function for a given point indicates whether the slope (or gradient) of the function output (in this case, loss) is increasing or decreasing with respect to a function variable (in this case, the weight value). [Belirli bir nokta için bir fonksiyonun türevi, fonksiyon çıktısının (bu durumda kayıp) eğiminin (veya gradyanının) bir fonksiyon değişkenine (bu durumda ağırlık değeri) göre artan mı yoksa azalan mı olduğunu gösterir.] A positive derivative indicates that the function is increasing, and a negative derivative indicates that it is decreasing. [Pozitif türev, fonksiyonun arttığını, negatif türev ise azalmakta olduğunu gösterir.] In this case, at the plotted point for the current weight value, the function has a downward gradient. [Bu durumda, mevcut ağırlık değeri için çizilen noktada, fonksiyon aşağı doğru bir eğime sahiptir.] In other words, increasing the weight will have the effect of decreasing the loss. [Başka bir deyişle, ağırlığı artırmak, kaybı azaltıcı etkiye sahip olacaktır.]

We use an optimizer to apply this same trick for all of the weight and bias variables in the model and determine in which direction we need to adjust them (up or down) to reduce the overall amount of loss in the model. [Aynı numarayı modeldeki tüm ağırlık ve sapma değişkenlerine uygulamak için bir optimize edici kullanırız ve modeldeki toplam kayıp miktarını azaltmak için bunları hangi yönde (yukarı veya aşağı) ayarlamamız gerektiğini belirleriz.] There are multiple commonly used optimization algorithms, including stochastic gradient descent (SGD), Adaptive Learning Rate (ADADELTA), Adaptive Momentum Estimation (Adam), and others; all of which are designed to figure out how to adjust the weights and biases to minimize loss. [Stokastik gradyan inişi (SGD), Uyarlanabilir Öğrenme Hızı (ADADELTA), Uyarlanabilir Momentum Tahmini (Adam) ve diğerleri dahil olmak üzere yaygın olarak kullanılan birden çok optimizasyon algoritması vardır; bunların tümü, kaybı en aza indirmek için ağırlıkların ve önyargıların nasıl ayarlanacağını bulmak için tasarlanmıştır.]

### Learning rate

Now, the obvious next question is, by how much should the optimizer adjust the weights and bias values? [Şimdi, bir sonraki bariz soru, optimize edicinin ağırlıkları ve sapma değerlerini ne kadar ayarlaması gerektiğidir?] If you look at the plot for our weight value, you can see that increasing the weight by a small amount will follow the function line down (reducing the loss), but if we increase it by too much, the function line starts to go up again, so we might actually increase the loss; and after the next epoch, we might find we need to reduce the weight. [Ağırlık değerimizin grafiğine bakarsanız, ağırlığı küçük bir miktar artırmanın fonksiyon satırını takip edeceğini (kaybı azaltarak) görebilirsiniz, ancak çok fazla arttırırsak fonksiyon satırı yukarı çıkmaya başlar. tekrar, böylece aslında kaybı artırabiliriz; ve bir sonraki çağdan sonra, ağırlığı azaltmamız gerektiğini görebiliriz.]
The size of the adjustment is controlled by a parameter that you set for training called the learning rate. [Ayarlamanın boyutu, eğitim için belirlediğiniz, öğrenme oranı adı verilen bir parametre tarafından kontrol edilir.] A low learning rate results in small adjustments (so it can take more epochs to minimize the loss), while a high learning rate results in large adjustments (so you might miss the minimum altogether). [Düşük bir öğrenme oranı küçük ayarlamalarla sonuçlanır (böylece kaybı en aza indirmek daha fazla dönem alabilir), yüksek bir öğrenme oranı ise büyük ayarlamalarla sonuçlanır (böylece minimumu tamamen kaçırabilirsiniz).]