## What is classification?

Binary classification is classification with two categories. [İkili sınıflandırma, iki kategorili sınıflandırmadır.] For example, we could label patients as non-diabetic or diabetic. [Örneğin, hastaları diyabetik olmayan veya diyabetik olarak etiketleyebiliriz.]

The class prediction is made by determining the probability for each possible class as a value between 0 -impossible - and 1 - certain. [Sınıf tahmini, olası her bir sınıf için olasılığın 0 -imkansız - ile 1 - kesin arasında bir değer olarak belirlenmesiyle yapılır.] The total probability for all classes is 1, as the patient is definitely either diabetic or non-diabetic. [Hasta kesinlikle diyabetik veya diyabetik olmadığı için tüm sınıflar için toplam olasılık 1'dir.] So, if the predicted probability of a patient being diabetic is 0.3, then there is a corresponding probability of 0.7 that the patient is non-diabetic. [Bu nedenle, bir hastanın diyabetik olma olasılığının tahmin edilen olasılığı 0,3 ise, hastanın diyabetik olmadığı yönünde 0,7'lik bir karşılık gelen olasılık vardır.]

A threshold value, usually 0.5, is used to determine the predicted class - so if the positive class (in this case, diabetic) has a predicted probability greater than the threshold, then a classification of diabetic is predicted. [Tahmin edilen sınıfı belirlemek için genellikle 0,5 olan bir eşik değeri kullanılır - bu nedenle pozitif sınıfın (bu durumda diyabetik) eşikten daha büyük bir tahmin olasılığı varsa, o zaman bir diyabetik sınıflandırması tahmin edilir.]

### Training and evaluating a classification model

Classification is an example of a supervised machine learning technique, which means it relies on data that includes known feature values (for example, diagnostic measurements for patients) as well as known label values (for example, a classification of non-diabetic or diabetic). [Sınıflandırma, denetimli makine öğrenimi tekniğinin bir örneğidir; bu, bilinen özellik değerlerini (örneğin, hastalar için tanı ölçümleri) ve bilinen etiket değerlerini (örneğin, diyabetik veya diyabetik olmayanların sınıflandırması) içeren verilere dayandığı anlamına gelir. .] A classification algorithm is used to fit a subset of the data to a function that can calculate the probability for each class label from the feature values. [Verilerin bir alt kümesini, özellik değerlerinden her sınıf etiketi için olasılığı hesaplayabilen bir fonksiyona sığdırmak için bir sınıflandırma algoritması kullanılır.] The remaining data is used to evaluate the model by comparing the predictions it generates from the features to the known class labels. [Kalan veriler, özelliklerden ürettiği tahminleri bilinen sınıf etiketleriyle karşılaştırarak modeli değerlendirmek için kullanılır.]

### A simple example

Let's explore a simple example to help explain the key principles. [Temel ilkeleri açıklamaya yardımcı olacak basit bir örneği inceleyelim.] Suppose we have the following patient data, which consists of a single feature (blood-glucose level) and a class label 0 for non-diabetic, 1 for diabetic. [Tek bir özellikten (kan-glikoz seviyesi) ve diyabetik olmayanlar için 0, diyabetliler için 1 sınıf etiketinden oluşan aşağıdaki hasta verisine sahip olduğumuzu varsayalım.]

![image.png](attachment:image.png)

We'll use the first eight observations to train a classification model, and we'll start by plotting the blood-glucose feature (which we'll call x) and the predicted diabetic label (which we'll call y).

![image.png](attachment:image.png)

What we need is a function that calculates a probability value for y based on x (in other words, we need the function f(x) = y). [İhtiyacımız olan şey, x'e dayalı olarak y için bir olasılık değeri hesaplayan bir fonksiyondur (başka bir deyişle, f(x) \u003d y fonksiyonuna ihtiyacımız var).] You can see from the chart that patients with a low blood-glucose level are all non-diabetic, while patients with a higher blood-glucose level are diabetic. [Kan şekeri düzeyi düşük olan hastaların diyabetik olmadığı, kan şekeri düzeyi yüksek olan hastaların ise diyabetik olduğu tablodan görülebilir.] It seems like the higher the blood-glucose level, the more probable it is that a patient is diabetic, with the inflexion point being somewhere between 100 and 110. [Kan-glikoz seviyesi ne kadar yüksekse, hastanın diyabetik olma olasılığı o kadar yüksektir ve bükülme noktası 100 ile 110 arasında bir yerdedir.] We need to fit a function that calculates a value between 0 and 1 for y to these values. [Bu değerlere y için 0 ile 1 arasında bir değer hesaplayan bir fonksiyon uydurmamız gerekiyor.]

One such function is a logistic function, which forms a sigmoidal (S-shaped) curve, like this: [Böyle bir fonksiyon, aşağıdaki gibi bir sigmoidal (S-şekilli) eğri oluşturan bir lojistik fonksiyondur:]

![image.png](attachment:image.png)

Now we can use the function to calculate a probability value that y is positive, meaning the patient is diabetic, from any value of x by finding the point on the function line for x. [Şimdi fonksiyonu, x için fonksiyon satırındaki noktayı bularak herhangi bir x değerinden y'nin pozitif yani hastanın diyabetik olduğu bir olasılık değerini hesaplamak için kullanabiliriz.] We can set a threshold value of 0.5 as the cut-off point for the class label prediction. [Sınıf etiketi tahmini için kesme noktası olarak 0,5'lik bir eşik değeri belirleyebiliriz.]

Let's test it with the data values we held-back:

![image.png](attachment:image.png)

Points plotted below the threshold line will yield a predicted class of 0 - non-diabetic - and points above the line will be predicted as 1 - diabetic.

Now we can compare the label predictions based on the logistic function encapsulated in the model (which we'll call ŷ, or "y-hat") to the actual class labels (y).

![image.png](attachment:image.png)