# Makine Öğrenmesi Temelleri

## Makineler Nasıl Öğrenir

- Yapay zeka algoritmaları, büyük miktarda veriye dahaylı olarak desenleri tanımlar, kararlar alır ve sonuçları tahmin ederler.
- İnsanların öğrenme sürecine benzer şekilde, yapay zeka modelleri de hatalarından öğrenir ve deneyimleriyle daha iyi hale gelir. 

## Makinelerde Öğrenme Kavramı Nedir?

- Makine öğrenmesi,
  * bilgisayar sistemlerinin verilerden öğrenerek,
  * deneyimlerden yararlanarak
  * algoritmaları kullanarak
- belirli görevleri gerçekleştirmesini sağlayan yapay zeka alanının bir alt dalıdır.


## Makine Öğrenmesi ve Geleneksel Programlama 

- Programlama yaklaşımı 
- Kural tabanlı bilgi
- Esneklik ve Genelleme
- Değişkenlik ve adaptasyon

# Makine Öğrenmesi Yöntemleri

- **Veri kümesi (dataset)**
- **öznitelik (features) :** veri noktalarını tanımlayan özniteliklerdir. Öznitelikler makine öğrenmesi algoritmalarının modellenmesi ve tahmin yapması için kullanılan değişkenlerdir.
- **Etiketler (labels)** : gözetimli öğrenme problemlerinde hedef değişkenler olarak adlandırılır. Bir veri örneğinin etiketi özelliklere karşılık gelen gerçek çıktı veya sınıfı temsil etmektedir.
- **Model** : girdi verilerini alıp belirli bir çıktıyı verir.
- **Eğitim(Training)** : Bir makine öğrenimi modelinin veri kümesi üzerindeki örneklerle eğitilmesi sürecidir. Eğitim süreci, makine öğrenmesi modeli içerisindeki parametre ayarlarının optimize edilmesidir.
- **Doğrulama(validation)** : Eğitim sürecinde modelin performansını değerlendirir ve hiper parametrelerin ayarlanmasına yardımcı olmak için ayrılan bir veri kümesidir.
- **Test(test)** :  Modelin gerçek veri kümeleri ile test edilmesi için ayrılan veri kümesidir.


![Resim Açıklaması](images/ML_algoritma.png)

- **Sınıflandırma (Classification)** : Bir veri noktasını bir veya daha fazla sınıfa atayan bir tahmin problemidir.
- **Regresyon (Regression)** : Bir çıktı değişkeninin sürekli bir değeri tahmin etmeye çalışan bir tahmin problemidir. Regresyon problemlerinde çıktılar sayısal değerlerdir. Örn, bir evin fiyatını tahmin etmek yada borsanın fiyat tahmini
- **Öğrenme Algoritmaları (Learning Algorithms)** : Veri üzerinden örüntüleri keşfetmek ve modellemek için kullanılan matematiksel ve istatistiksel tekniklerdir.
- **Öznitelik Mühendisliği(Feature Engineering)** :
- **Hiper parametreler (Hyperparameters)** : Modelin yapılandırılması ve eğitilmesi sürecini kontrol eden parametrelerdir. Örneğin, bir sinir ağı modelindeki katman sayısı veya öğrenme hızı gibi parametreler hiper parametrelerdir.
- **Overfitting ve Underfitting** : Modelin eğitim verilerine aşırı uyum sağlaması durumuna overfitting (ezberleme) diyoruz. Test veri seti ile test ettiğimizde undefitting olma  durumu (öğrenememe).
- **Cross-Validation (Çapraz Doğrulama)** : Modelin performansını değerlendirmek için kullanılan bir tekniktir. Veri kümesi birden fazla alt kümeye bölünür ve her bir alt küme sırasıyla eğitim ve doğrulama için kullanılır. Bu sayede modelin genelleme yeteneği daha güvenilir bir şekilde değerlendirilir.
- **Derin Öğrenme (Deep Learning)** : 

Örn, birtane kanser hücresi ile ilgili bir **label** yazmak isteyelim.  Kanser hücreli yada kanser hücresiz olarak bunlara **pozitif** ve **negatif** label'lar yazmak istersek, 

**label**  <br>
- **p** : kanserli hücre <br>
- **n** : kansersiz hücre <br>

**features** <br>
- **hucreY** : hücre yarıçapı <br>
- **hucreA** : hücre alanı <br>
- **boyut**  : hücre boyutu <br>




![Resim Açıklaması](images/ML_yontemler.png)

![Resim Açıklaması](images/ML_sureci.png)

**Makine öğrenmesi uygulamaları;**
- Tıp ve Sağlık
- Finans
- Perakende ve Pazarlama
- Ulaşım ve lojistik
- Güvenlik ve Siber Güvenlik
- Robotik
- Enerji Planlaması ve Verimlilik

**Makine öğrenmesi araçları:**
- Tensorflow
- PyTorch
- Keras
- NumPy
- Scikit-learn
- Pandas
- Matplotlib
- Theano

# Veri Ön İşleme

**Veri Nedir?**

Veri, bilgi taşıyan ve anlam ifade eden öğelerin toplamıdır. 
Genellikle sayılar, metin, görseller veya diğer formatlardaki bilgileri içerir. <br> 

- **Veri Tipleri**
    - **Kategorik Veriler**
      - Nominal
      - Ordinal
    - **Sayısal Veriler**
      - Interval
      - Ratio   

**Veri Ön İşleme**

Veri setini hazırlama sürecidir. Veri ön işleme aşamaları genellikle şunları içerir.  

    - Veri temizleme
    - Veri standardizasyonu 
    - Öznitelik seçimi
    - Veri dönüşümü
    - Aykırı değerlerin işlenmesi

- **Veri Temizleme**

Veri temizleme, veri setindeki hatalı, eksik veya tutarsız verileri tanımlama, düzeltme veya çıkarma işlemidir. Bu işlem, verinin doğruluğunu artırarak analiz veya modelleme süreçlerinin güvenilirliğini sağlar. Veri temizleme, 
* Doğruluk
* Tutarlılık
* Eksik veri problemi
* Aykırı değerler
* Standartlaştırma

Veri temizleme yöntemleri: <br>
    - **Kayıp Veri Problemi** : Bir veri setindeki eksik veya bozuk verilerin bulunması durumudur. <br> 
    - **Tutarsız veri düzeltme**  veri setindeki tutarsızlıkları tespit etme ve düzeltme işlemidir.  <br> 
    - **Yinelenen Verilerin Silinmesi**   <br>
    - **Gereksiz sütunların silinmesi**    <br>

- **Veri Kodlaması**
  Veri kodlaması, kategorik (nominal veya ordinal) verileri sayısal değerlere dönüştürme işlemidir. Bu dönüşüm, makine öğrenimi algoritmaları gibi birçok analiz yöntemi için gereklidir, çünkü bu algoritmalar genellikle sayısal verilerle çalışır. Veri kodlamasının iki ana türü vardır.
  - Nominal kodlama
  - Ordinal kodlama

## Öznitelik Mühendisliği

**Öznitelik Nedir?** :
- Öznitelik (feature), bir veri örneğini tanımlayan veya açıklayan herhangi bir özelliktir.
- Öznitelikler, veri setindeki her bir gözlemin bir parçasını oluşturan ölçülebilir veya gözlemlenebilir özelliklerdir.
- Öznitelikler, veri setinin her bir **sütununu** temsil eder.
- Öznitelik mühendisliği (feature engineering), veri bilimi ve makine öğrenmi alanında kullanılan bir tekniktir ve veri setindeki öznitelikleri (features) optimize etmek veya yeni öznitelikler oluşturmak için yapılan işlemleri ifade eder.  

**Öznitelik mühendisliğinin önemi**

- Model performansını artırma
- Boyut azaltma
- Hesaplama maliyetini azaltma


**Öznitelik Seçimi**

- Öznitelik seçimi (feature selection), veri setinde bulunan öznitelikler arasından en önemli veya en bilgilendirici olanları seçme veya belirleme sürecidir.
- Bu süreçte, veri setinteki gereksiz, tekrarlayan veya düşük etkili özniteliklerin tanımlanması ve çıkarılması hedefleniyor.
- Informasyon tabanlı yöntemler
- Wrapper yöntemler
- Gömülü yöntemler
- Filter yöntemler

**Öznitelik Çıkarma**

- Öznitelik çıkarma (Feature extraction), veri setindeki özniteliklerin temsilini değiştirme veya dönüştürme sürecidir.
- Bu süreçte, var olan özniteliklerin birleştirilmesi, dönüştürülmesi veya yeni özniteliklerin oluşturulması yoluyla verinin tamsilinin iyileştirilmesi amaçlanır.
- Öznitelik çıkarma, veri boyutunu azaltarak gereksiz bilgiyi çıkararak ve verinin daha anlamlı bir şekilde temsil edilmesini sağlayarak model performansını arttırabilir.

**Öznitelik Çıkarmanın Önemi**

- Model performansını artırma
- Boyut azaltma
- Gereksiz bilgiyi çıkarılması
- Anlamlı temsilinin sağlanması


**Öznitelik Çıkarma Yöntemleri**

- Principle Compenent Analysis (PCA) : Veri setindeki öznitelikler arasındaki korelasyonu azaltmak ve veri boyutunu azaltmak için kullanılan bir yöntemdir. 
- Linear Discriminant Analysis (LDA) : Sınıflar arasındaki farklılıkları en üst düzeye çıkarmaya kullanılan bir yöntemdir.
- Autoencoders : Giriş verisine benzeyen ancak daha düşük boyutlu bir temsillemeye dönüştüren sinir ağı tabanlı bir modellerdir. Bu yöntem veri setindeki gizli yapıyı öğrenir ve daha az boyutlu bir temsile oluşturmuş olur.


![Resim Açıklaması](images/oznitelik_yontemleri.png)


**Veri Normalizasyonu ve Standardizasyonu**

- Veri normalizasyonu ve standardizasyonu, veri öznitelikleirnin farklı ölçeklere veya dağılımlara sahip olması durumunda bunları belirli bir standart forma dönüştürmek için kullanılan yöntemlerdir. 

![Resim Açıklaması](images/veri_normalizasyon.png)

**Örnek** 

$$
X_{norm} = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}
$$

Öncelikle, Matematik notlarını $[0,1]$ aralığına normalizasyon yapalım: 

$$
X_{norm} = \frac{x - 70}{90-70} =  \frac{x - 70}{20}
$$


![Resim Açıklaması](images/m_notlar.png)

![Resim Açıklaması](images/standart.png)

## Veri Tipleri ve Dönüşümleri

**Ayrık ve Sürekli Veri Ayırma**

- Ayrık (discrate) ve sürekli (continuous) veri, istatistik ve veri bilimi alanlarında temel olarak iki farklı veri tipini ifade eder.
![Resim Açıklaması](images/ayrik_surekli_veri.png)
 

**Veri Bölme**
- Bir veri setini eğitim, doğrulama ve test kümeleri olarak üçe veya daha fazla parçaya ayırmak anlamına gelir.
- Bu bölme işlemi, makine öğrenimi modelinin eğitilmesi, doğrulanması ve değerlendirilmesi için kullanılır.
- Genellikle, veri setinin büyük bir kısmı modelin eğitimi için kullanılırken, geri kalan kısmı modelin doğrulanması ve test edilmesi için kullanılır.
- Veri bölmenin makine öğrenmi açısından önemi :
  - Model performansının doğru değerlendirilmesi
  - Aşırı uydurmanın (overfitting) önlenmesi.
  - Parametre ayarının ve model seçiminin yapılması
    
**Dengesiz Veri İşleme**

- Makine öğrenmesinde dengesiz veri, farklı sınıflara ait örneklerin sayısal olarak büyük farklılıklar gösterdiği durumlarda ortaya çıkar. 
- Örneğin, bir sınıfın örnek sayısı diğerlerine göre çok daha fazlaysa, bu dengesiz veri problemi olarak kabul edilir.
- Dengesiz veri, modelin eğitimini ve performansını olumsuz yönde etkileyebilir çünkü nadir sınıfların öğrenilmesi zorlaşabilir ve modelin bu sınıfları tanımlaması daha düşük olabilir.

Örneğin : 100 adet kedi ve köpek görselinin 90 tanesi kedi 10 tane köpek olursa bu veri dengesiz veridir. Herşeye kedi dmee olasılığı yüksektir. Ancak 50 kedi ve 50 köpek veri seti olursa bu veri seti dengeli bir veri setidir. 

Dengesiz verin önüne geçmek için,
- OVersampling (Aşırı örnekleme)
- Undersampling (Yetersiz Örnekleme)
- Sentetik Örnekleme (Synthetic Sampling)

![Resim Açıklaması](images/veri_isleme.png)


**Aykırı değer işleme**

- Aykırı değer (outlier), genel trendden önemli ölçüde farklı olan ve genellikle diğer veri noktalarından uzakta bulunan bir veri noktasıdır.
- Makine öğrenmesi bağlamında, **aykırı değerler** genellikle modelin **yanlış eğitilmesine** veya yanıltılmasına neden olabilir.
- Model performansını etklileyebilir.
- Modelin hassasiyetini arttırır.
- Modelin yorumlanabilirliğini artırır.

**Aykırı değer tespit etme yöntemleri**

- Standart sapma yaklaşımı
- Elimizdeki verinin dağılımına bakıyoruz belirli bir standart sapmanın üzerindeyse **outliers** olarak tespit ediyoruz.

![Resim Açıklaması](images/s_sapma.png)

- Box Plot(kutu grafiği) yöntemi

Elimizdeki bir veriye box plot yöntemi uygulandığında medyan(Q2), Q1, Q3 şeklinde farklı grafiksel modellemeler çıkartacaktır. Biz burdan Q1 ve Q3 arasındaki farkı bulup IQR tespit edeceğiz. Q3 değerine, k katsayılı IQR eklersek upper extreme value limiti elde edilir.  Q1 den de k katsayılı bir IQR çıkartılırsa da lower extreme value limiti elde edilir. Eğer bu değerlerin dışında bunlar outlier adaylarıdır.  

![Resim Açıklaması](images/box_plot.png)

- Z-Skoru yaklaşımı
Bir veri noktasının ortalama değerden kaç standart sapma uzaklıkta olduğunu ölçen bir kavramdır. 
![Resim Açıklaması](images/z_skoru_yaklasimi.png)

- LOF (Local Outlier Factor)
Her veri noktasının çevresindeki yoğunluğu dikkaet alıp ve aykırı değerleri belirliyor. 

![Resim Açıklaması](images/lof.png)


# Makine Öğrenmesi İçin Temel Matemaiiksel Kavramlar

## Lineer Cebir

- Lineer cebir, makine öğrenmesinin temel taşlarından biridir.
- Özellikle matrisler, vektörler ve matris işlemleri makine öğrenmesi algoritmalarının pek çoğunda kullanılır.
- Örneğin, model parametrelerinin matris formunda ifade edilmesi, özellik vektörlerinin işlenmesi ve boyut indirgeme teknikleri gibi

### Skaler ve Vektör

#### Skaler (Scalar)

- Skaler, büyüklüğü (magnitude) belirten ve yalnızca bir sayıdan oluşan matematiksel bir nesnedir. Yani, sadece büyüklüğü vardır ve bir yöne veya konuma sahip değildir.
- Bir otomobilin hızı, bir kişinin yaşını, veya bir oda sıcaklığı birer skaler değerdir.

#### Vektör (Vector)

- Vektör, hem büyüklüğü (magnitude) hem de yönü (direction) belirten matematiksel bir nesnedir. Bir başlangıç noktasından bir bitiş noktasına yönelen bir ok olarak düşünülebilir.
- Bir otomobilin hızı ve yönü (örneğin, 50km/saat doğuya) birer vektördür. Bir kuvvetin uygulandığı yön ve şiddeti de bir vektör olarak ifade edilebilir.

#### Skaler vektör çarpımı

- Bir vektörün her elemanının bir skaler sayıyla çarpılması işlemdir.

### Matrisler

Matrisler, sayılar kümesinin satır ve sütunlarla düzenlenmiş bir düzlem tablosudur. 

![Resim Açıklaması](images/matrisler.png)

**Matris İşlemleri**

- Skaler-Matris Çarpımı
- Matris-Matris Toplama
- Matris-Matris Çıkarma
- Matris-Matris Çarpımı
- Vektör-Matris İşlemleri
- Transpoze
- Ters Matris

### Lineer Denklemler

- Lineer denklem, içinde yalnızca birinci dereceden terimlerin bulunduğu bir denklem sistemidir.
- Bu denklemler, bilinmeyen değişkenlerin doğrusal olarak ifade edildiği denklemlerdir.
- Makine öğrenmesi bağlamında, lineer denklemler genellikle modelin temelini oluşturur.
- Özellikle regresyon analizi ve sınıflandırma gibi temel makine öğrenmesi problemlerinde lineer modeller sıklıkla kullanılır.

![Resim Açıklaması](images/lineer_denklem.png)

**Örnek:**  Bir evin fiyatını tahmin etmek için lineer denklem yazalım. 

- Evin fiyatını öğrenebilmek için ilk önce,
- evin alanı(m2) 
- oda sayısı
- konumu gibi bilgilere ihtiyacımız var. Biz bunları matematiksel ifade edebilmek için sırasıyla x1, x2, x3 değişkelerinde tutalım.

**Değişkenler**
- x1 = evin alanı
- x2 = evin oda sayısı
- x3 = evin konumu  olsun.
- y = evin fiyatı olsun.  (biz y'yi tahmin etmeye çalışacağız. ) 


$x_1 + x_2 + x_3 = y$

Bizim burda aslında x1, x2, ve x3' ün katsayıları "1" dir. Ancak biz burda bunları "w" ile ifade edeceğiz. Bunu yazmamızdaki sebep farklı katsayılar ile işleme soktuğumuzda değişken olarak w1, w2, ve w3 olarak ifade ettğimiz ağırlık katsayıları ile x1, x2, ve x3 değişkenlerini işleme sokmamız gerekiyor. Bu durumda bu ifade aşağıdaki gibi olacaktır. 

$ w_1*x_1 + w_2*x_2 + w_3*x_3 + bias = y $ 

olarak ifade ederiz. 

Örneğimizde, 

- Evin alanı : 100m2
- oda sayısı : 5
- Konumu     : 1  olsun.
  - güzel bir konum için : 1
  - orta bir konum için  : 0 olsun.

sonuç olarak bir $y$ değeri elde edilecek. Ağırlık katsayılarımızı elimizde bulunan $y$ değerine karşılık öğrenmiş(belirlemiş) olacağız. 

$ w_1*x_1 + w_2*x_2 + w_3*x_3 = y + bias $ <br>
$     100 +      5  +       1 = y $   

makine öğrenmesi uygulamasında biz bu $y$ yide biliyor olacağız ve biz $w_1, w_2 ve w_3$ ü öğrenmeye çalışacağız. 

## Kalkülüs

### Türev

- Türev, bir fonksiyonun belirli bir noktasındaki anlık değişim oranını ifade eder.
- Özellikle gradyan inişi gibi optimizasyon teknikleri, bir fonksiyonun türevini kullanarak en uygun parametre değerlerini bulmaya çalışır. Modelin kayıp fonksiyonunun (loss function) türevi, parametre güncellemelerinde bir rehber olarak kullanılır. 

![Resim Açıklaması](images/turev_integral.png)

### İntegral

- Integral, bir fonksiyonun belirli bir aralıktaki alanını ifade eder.
- Integral, bir fonksiyonun toplamını almak için kullanılır ve belirli bir aralıktaki sonsuz küçük parçaların toplamını hesaplamak için integral işareti kullanılır.


## Olasılık ve İstatistik

- Olasılık, belirsizlik altında olayların olasılığını ve bu olayların matematiksel modellerini inceleyen bir alandır. Bir olayın gerçekleşme olasılığını sayısal olarak ifade eder.
- İstatistik,  veri toplama, analiz etme, yorumlama ve sonuç çıkarma süreçlerini inceleyen bir alandır. Bu süreçler, veri setlerinden anlamlı bilgiler çıkarılmasına ve karar verme süreçlerine destek sağlar. 

**Olay (Event)** Bir deneyde gözlemlenebilecek sonuçlardan her biridir.
- Örnek Uzay (Sample Space) : Bir deneyde olası tüm sonuçların olşturduğu kümedir. $S = \{Y, T\}$

**Koşullu Olasılık (Conditional Probability)** : Bir olayın başka bir olayın gerçekleşme durumuna bağlı olarak gerçekleşme olasılığını ifade etmektedir.

![Resim Açıklaması](images/kosullu_olasilik.png)

$P(...)$  fonksiyonu içerisine bir değer alacak anlamına gelir. <br>
$P(A)$ : A'nın gerçekleşme olasılığı <br>
$P(B)$ : B'nın gerçekleşme olasılığı <br>
$P(A∩B)$ : A ve(kesişim) B'nın gerçekleşme olasılığı <br>
$P(A/B)$ : B verildiğinde A'nın  gerçekleşme(olma) olasılığı <br>


**Olasılıksal Dağılımlar**

- Normal Dağılım (Gauss Dağılımı) : Sürekli bir değişkenin dağılımını modellemek için kullanılır. Merkezi limit teoremi ile karşımıza çıkar.

**Bernoulli Dağılımı**

- 2 sonuçlu olayları modellemek için kullanılır. Örneğin, yazı-tura olayını modellemek

**Binom Dağılımı**

- Belirli sayıda deneme yapıldığında başarı ve başarı sayısını modellemek için kullanılır. Bağımsız ve aynı şekilde dağılmış bernoulli dağılımlarının toplamıdır.

**Poisson Dağılımı**

- Belirli zaman aralığında nadir gerçekleşen olayların sayısını modellemek için kullanılır. 
![Resim Açıklaması](images/olasılıklar.png)

**Temel İstatistiksel Özellikler**

**Ortalama (mean)**

Bir veri setindeki değerlerin toplamının veri sayısına bölünmesi ile elde edilmektedir. Veri setinin merkezi eğilimini gösterir. 
Örn; Bir sınıftaki öğrencilerin not ortalaması. 

**Medyan(median)** 

Bir listedeki ortada ki sayıyı ifade eder. 

**Mod(mode)**

Bir veri setinin içerisinde hangi değerin kaç adet olduğunu ifade eder. 

**Varyans(variance)**

Bir veri setindeki değerlerin ortalamadan ne kadar uzak olduğunun ölçüsüdür. Değişkenliği ifade etmektedir. 

**Standart Sapma(Standard Deviation)**

Varyansın karekökü alınarak hesaplanır, veri setindeki değerlerin ortalamadan ne kadar saptığı hakkında bilgi verir. 


# GÖZETİMLİ ÖĞRENME

- Gözetimli öğrenme, eğitim verilerinde girdi ve çıktı arasındaki ilişkiyi öğrenmeyi amaçlayan bir makine öğrenmesi yaklaşımıdır. 

girdi : veri setindeki feature'lar  <br>
çıktı : Bu feature'lara karşılık gelen etiketler. <br>

- Bu tür öğrenme genellikle "etiketlenmiş veri" ile gerçekleştirilir, yani her girdiye karşılık gelen bir çıktı etiketi bulunur.
- Gözetimli öğrenmenin ana adımları şunlardır:
  - Ver toplama ve hazırlığı
  - Model seçimi ve eğitimi
  - Model değerlendirilmesi
  - Model ayarlanması ve hiperparametre optimizasyonu
- Gözetimli öğrenme, sınıflandırma ve regresyon gibi çeşitli problemleri çözmek için kullanılabilir.
- Örnek uygulamalar arasında hatalık teşhisi, müşteri tercihlerini tahmin etme, pazar segmentasyonu ve hisse senedi fiyatlarını tahmin etme bulunmaktadır.
  
![Resim Açıklaması](images/gozetimli_ogrenme.png)


**Gözetimli Öğrenme Algoritmaları** 

- Sınıflandırma
  - K-En yakın komşu
  - Karar ağaçları
  - Rasgele Orman
  - Logistic Regresyon
  - Destek Vektör Makinesi
  - Naive Bayes
- Regresyon
  - Lineer Regresyon
  - Çoklu Lineer Regresyon
  - Polinom Regresyon

## Sınıflandırma

### K-En Yakın Komşu (KNN)

- K-Nearest  Neighbors (KNN), makine öğrenimi alanında sınıflandırma ve regresyon problemlerini çözmek için kullanılan basit ve popüler bir algoritmadır.
- Temelde, bir veri noktasının sınıfını tahmin etmek veya bir değeri öngörmek için en yakın komşuların etrafındaki veri noktalarının etiketlerini veya değerlerini kullanır.

![Resim Açıklaması](images/knn.png)

$x_1$ ve $x_2$ bizim featurelarımız. <br> 
etiket : CategoryA, CategoryB <br> 

Burda $x_1$ ve $x_2$ değerlerine karşılık gelen iki sınıflı bir sınıflandırma problemidir.  Sınıflandırma problemini KNN ile çözebiliriz.  Burda yeni bir nokta veriyor ve bunun $x_1$ ve $x_2$ değerlerini veriyor ve bu noktanın hangi sınıfa ait olduğunu KNN ile tahmin etmye çalışacak. 

K en yakın komşuya bakar.  K dediğimiz şey bir hyper parametredir.  Hiper parametre dediğimiz şey bizim tarafımızdan seçiliyor. 

K = 3 seçilirse, en yakın veri noktalarına bakılır. Mesafe olarak en yakın 3 noktalara bakar. Hangi nokta en yakın ise o sınıfa geçer. 

**KNN algoritma akış şeması**


![Resim Açıklaması](images/knn_akis_semasi.png)

- **K Nasıl seçilir?**
-  **Mesafe Nedir?** mesafe (distance) da bir hyper parameter dir. 
  A noktasından B noktasına gidiş yöntemi. 
  - **Euclieden** : İki nokta arasında doğrusal mesafeyi ölçer. 
  - **Manhattan** : İki nokta arasındaki ölçümü gerçekleştirir. Dikdörtgen çizgisine dayalı olarak gerçekleştirir. Manhattan mesafesi düşük boyutlu veri setlerinde ve kategorik değişkenlerle çalışırken etkilidir. Öznitelik arasındaki farklar daha az olduğunda kullanılır. 
  - **Minkowski** : Euclidean ve Manhattan mesafesini genelleştiren bir mesafe türüdür. Minkowski de bir tane p parametresi vardır. Eğer p parametresi 2 ise euclidean mesafesine yaklaşır 2 den küçükse manhattan mesafesine yaklaşır. 
  - **Hamming**   : Kategorik değişkenler arasındaki mesafeyi ölçer. iki vektör arasındaki eşleşmeyen öğe sayısını hesaplar. 
- **K adet küçük mesafeyi seç**
  ![Resim Açıklaması](images/knn_.png)

  - Elbow method, KNN(K-Nearest neighbors) gibi kümeleme veya sınıflandırma algoritmalarında K (komşu sayısı) değerini seçmek için kullanılan bir tekniktir.
  - Bu yöntem, farklı K değerlerini deneyerek modelin performansını değerlendirir ve optimum K değerini belirlemeye çalışır.
  - Elbow methodu, K değerinin artmasıyla birlikte modelin performansındaki azalışın hızının azalması ve eğrinin dirsek gibi bükülmesi prensibine dayanır.
  - Elbow methodu, K değerinin artmasıyla birlikte modelin performansındaki(hatanın azalışı) azalışın hızının azalması ve eğrinin dirsek gibi bükülmesi prensibine dayanır.
    ![Resim Açıklaması](images/elbow.png)


    ![Resim Açıklaması](images/knn_hiperoptimizasyon.png)

    K çok küçükken train accuracy çok yüksek test accuracy çok düşük çıkıyor bu underfitting demektir. Yani KNN algoritmamız öğrenemedi. Sonrasında K değeri arttıkça test ve train accuracy leri birbirine çok yakın olmaya başladı. Modelin yapması gereken işi yapıyor anlamındadır.
    
- **K için x, y, z etiketleri olsun**
- **seçme**
Eğer $x>y>z$ ise  x'in karşılığındaki etiket ne ise o sınıf seçilir. 


**KNN Uygulama Alanları**

- Sağlık
- E-ticaret
- Finans

- Avantajları
  - Basitlik ve doğruluk
  - Parametre ayarının kolaylığı
  - Örnek bazlı öğrenme
- Dezavantajları
  - Boyutluluk problemi
  - Veriye duyarlılık
  - Yüksek hesaplama maliyet



#### KNN Durum Çalışması

- Features (öznitelikler)  $x_1$ ve $x_2$ olsun.

![Resim Açıklaması](images/knn_1.png)


K = 3 seçelim.   (literatürde K için 1,3,5 gibi tek sayı seçimi önerilir.)

1- Distance(mesafe) hesaplayalım. (Eucladian) 
Euclidean Distance: $$
d = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
$$

1. $(1,1) -> (1.5, 2) = \sqrt{(1.5-1)^2 + (2-1)^2} = 1.1 $
2. $(2,1) -> (1.5, 2) = \sqrt{(1.5-2)^2 + (2-1)^2} = 1.1 $
3. $(1,2) -> (1.5, 2) = \sqrt{(1.5-1)^2 + (2-2)^2} = 0.5 $  
4. $(3,3) -> (1.5, 2) = \sqrt{(1.5-3)^2 + (2-3)^2} = 1.8 $
5. $(4,3) -> (1.5, 2) = \sqrt{(1.5-4)^2 + (2-1)^3} = 2.7 $
6. $(3,4) -> (1.5, 2) = \sqrt{(1.5-3)^2 + (2-4)^2} = 2.5 $

K=3 için en yakın 3 komşusu 1,2,3 nolu A etiketli komşular olduğundan A etiketini alır.  

1. $(1,1) \to (4,4) = \sqrt{(4-1)^2 + (4-1)^2} = 4.243  $  
2. $(2,1) \to (4,4) = \sqrt{(4-2)^2 + (4-1)^2} = 3.606  $ 
3. $(1,2) \to (4,4) = \sqrt{(4-1)^2 + (4-2)^2} = 3.606  $
4. $(3,3) \to (4,4) = \sqrt{(4-3)^2 + (4-3)^2} = 1.414  $
5. $(4,3) \to (4,4) = \sqrt{(4-4)^2 + (4-3)^2} = 1.0    $
6. $(3,4) \to (4,4) = \sqrt{(4-3)^2 + (4-4)^2} = 1.0    $

En yakın 3 komşusu 5,6 ve 7 nolu noktaları B etiketli olduğundan (4,4) noktası da B etiketini alır. 

### Karar Ağaçları

- Karar ağaçları, ağaç yapısı şeklindeki bir dizi karar kuralıyla veri kümesini bölerek hedef değişkenin tahmin edilmesini sağlar. 

![Resim Açıklaması](images/karar_agaci.png)

- Karar ağacı, hem sınıflandırma hemde regresyon görevleri için kullanılan parametrik olmayan bir denetimli öğrenme algoritmasıdır.
- Bu algoritma, kök düğüm, dallar, iç düğümler ve yaprak düğümlerinden oluşan hiyerarşik bir ağaç yapısına sahiptir.

![Resim Açıklaması](images/k_agac_ornek.png)

Bu örnekte, düğümler(nodes) deki değerler, 

- Age (yaş)
- Weight (kilo)
- Smoker (sigara içip içmeme durumu)  bilgiler var.

Yapraklarda da 

- low risk (düşük risk)
- high risk (yüksek risk)

değerleri vardır.  Bu durum kalp krizini önlemek için riskleri anlamak ile ilgili oluşturulmuş bir karar ağacıdır. 

Örnek: 
- Age = 17 ise  sol daldan devam edilecek. 
- kilo = 30 ise < 60 olduğundan sol daldan devam edecek ve **"low risk"** yaprağına ulaşırız.


Düğümlerin(node) içerisinde yazılan bilgiler feature'larımızdır.  Peki veritabanından bu öznitelikler nasıl seçiliyor? 

Örnek: 

![Resim Açıklaması](images/k_agac_o2.png)

### Karar Ağacı Türleri 

* ID3 (Iterative Dichotomiser 3)
  - Bu algoritma, aday bölünmeleri değerlendirmek için **entropi** ve **bilgi kazancını** kullanır.
* C4.5
  - ID3'ün daha sonraki bir versiyonu olarak kabul edilir.
  - Karar ağaçlarında bölme noktalarını değerlendirmek için bilgi kazancı veya kazanç oranlarını kullanabilir.
* CART (sınıflandırma ve regresyon ağaçları)
  - Bu algoritma genellikle ideal bölünme özelliğini belirlemek için **Gini** (indeksi) karşılığını kullanır.
  - Gini karşılığı, rastgele seçilen bir özelliğin ne sıklıkla yanlış sınıflandırıldığını ölçer.
  - Gini karışıklığını kullanarak değerlendirirken, daha düşük bir değer daha idealdir. 

**Karar ağacı türlerinin karşılaştırılması**

| | ID3 | C4.5 | CART |
|-|-----|------|------|
|**Veri Tipi** | Kategorik | Sürekli ve Kategorik | Sürekli ve Kategorik |
|**Veri Boyutu** | Orta ve küçük veri setleri  | Orta ve büyük veri setleri | Büyük veri setleri |
|**Hız** | Kategorik | Sürekli ve Kategorik | Sürekli ve Kategorik |
|**Boosting** | Yok | Yok | Var (Rastgele ormanlar, Gradient Boosting) |
|**Kayıp veri** | Hassas | Orta düzeyde hassas | Yüksek (kayıp verinin üstesinden gelebilir.) |
|**Algoritma** | Entropi ve Bilgi kazancı | Bölme bilgisi ve kazanç oranı | Gini impurity |

#### ID3

1. Her özniteliğin bilgi kazancını hesapla. (Information Gani)
2. Karar ağacı düğümünü seçilen özniteliğin değerleriyle genişlet
3. Başka sınıflandırılmamış örnek kaldı mı? (Evet ise 4. adıma git yoksa bitir)
4. Kalan öznitelikler ile devam et? (1. adıma git) 

**Bilgi kazancı (Information Gain)**

- Bir özelliğin bölünme noktasının ne kadar iyi olduğunu belirlemek için kullanılır.
- Özü, bir özelliğin seçilmesinin, veri kümesinin ne kadar iyi sınıflandırılacağına dair belirsizliği azaltıp azaltmadığını ölçmektir.
- Yani, bir özellik seçildiğinde, yeni oluşan alt kümelerin daha homojen olup olmadığını değerlendirir.
- Bilgi kazancı ne kadar yüksekse, bir özellik o kadar iyi bir bölünme kriteri olarak kabul edilir.


$Gain(S, A) = Entropy(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} Entropy(S_v)$

Bu formül, bilgi kazancını (Gain) hesaplamak için kullanılır. 
- S : tüm veri setini
- A : tüm veri seti içerisineki bakılacaklar
- Entropy(S), S kümesinin entropisini temsil eder ve
- Entropy(S_v), A özelliğinin v değeri için S kümesinin alt kümesi S_v'nin entropisini ifade eder.

Bilgi kazancını hesaplayabilmek için, tüm verisetinin entropisini hesaplayabilmemiz ve her bir feature'ın entropisini hesaplayıp toplayıp tüm veri setinden çıkartmamız gerekiyor. 





**Entropi (karışıklık, karmaşıklık)** 

- Karar ağaçları (decision trees) içinde entropi, belirli bir düğümdeki veri noktalarının sınıflarının ne kadar karışık olduğunu ölçen bir metriktir. 
- Daha düşük bir entropi değeri, bir düğümün daha homojen sınıflara sahip olduğunu, yani veri noktalarının çoğunluğunun aynı sınıfa ait olduğunu gösterir.
- Daha yüksek bir entropi değeri ise, bir düğümün daha karışık sınıflara sahip olduğunu, yani veri noktalarının farklı sınıflara daha eşit olarak dağıldığını gösterir.

![Resim Açıklaması](images/entropi.png)

1. E(S) : Tüm veri setinin entropisine bak.
2. $P_i$ : i'nin olasılığı
3. $log_2P_i$ : 2 tabanında olasılık i
4. (2. adım ile 3. adımı çarp) Bunları $i=1$ den $c$ ye kadar topla.
5. $P_1$ : YES ifade edecek
6. $P_2$ : NO ifade edecek

YES olma ihtimali nedir? 

$9 + 5 = 14$ adet verimiz var. 

- P1 = $9/4$
- P2 = $5/14$

$[max_{entropi}=1, min_{entropi}=0]$ dır. Bu yüzden entropi $[0,1]$ arasında değişiklik gösterir. 

Özetle, entropinin düşük olması istenir. Entropi karmaşıklıktır. Entropi düşük olursa information gain' de yüksek çıkacaktır. Entropi yüksek çıkarsa, bilgi kazancı düşük çıkacaktır. Bizim istemediğimiz(feature) durumudur. 

**ID3 Durum Çalışması**

![Resim Açıklaması](images/k_agac_o2.png)

Burdaki veri setini kullanarak bir ID3 inşaa edelim. 

1. Veri setinin entropisini hesapla $Entropy(S)$ (etiketin entropisi)
2. Veri setinden Outlook, Temperature, Humidity ve Wind bu dört feature(sütun) kullanılarak futbol oynayıp oynamayacağını karar verilen bir veri setidir.  4 adet feature ve 1 adet etiket'ten oluşmaktadır. Burdaki etiket alanı (Played sütunu).

- Etiket alanı (Played) ta kaçtane Yes kaçtane No var onları tespit ediyoruz.
- YES = 9 (P+ = 9/14)
- NO  = 5 (P- = 5/14)
- TOPLAM ETİKET SAYISI = 14

$ S = [ 9, 5   ] $ <br>
$ E(S) = -P + log_2*(P+) - P - log_2*(P-)$ <br>
$ E(S) = -9/14 * log_2 * 9/14  -5/14 log_2 * 5/14 $ <br>
$ E(S) = 0.94 $ <br>

Entropi $[0,1]$ arasında olmaktadır ve veri setimizin etiket sütunun entropisi $0.94$ olduğundan ve 1' e yakın olduğundan veri setinin entropisi karmaşık bir veri setidir. Homojen değildir ve istediğimiz bir durum değildir. 

Bilgi kazancını hesaplayabilmek için her bir feature'ın yanin sütunların entropisini hesaplamalıyız. 




**Outlook** feature (sütununun) entropisini hesaplayalım. 

- $S_v$= Sunny    = 5  
- $S_v$= Overcast = 4 
- $S_v$= Rain     = 5 

$S_v = S_{sunny}$'nin entropisi için Etiket sütunundaki kaçtane Yes kaçtane No var onları sayıyoruz. 

- $S_{sunny}$ = Yes = 2 (P+ = 2/5)
- $S_{sunny}$ = No  = 3 (P- = 3/5)
- $E(S_{sunny}) = -2/5 * log_2 * 2/5 - 3/5 * log_2 * 3/5$
- $E(S_{sunny}) = 0.971$  gibi yüksek entropi değeri çıkıyor. 
 
$S_v = S_{overcast}$'nin entropisi için Etiket sütunundaki kaçtane Yes kaçtane No var onları sayıyoruz. 

- $S_{overcast}$ = Yes = 4 (P+ = 4/4)
- $S_{overcast}$ = No  = 0 (P- = 0/4)
- $E(S_{overcast}) = 0$ çünkü homojen bir dağılım söz konusu karmaşıklık yok. 

$S_v = S_{rain}$'nin entropisi için Etiket sütunundaki kaçtane Yes kaçtane No var onları sayıyoruz. 

- $S_{rain}$ = Yes = 3 (P+ = 3/5)
- $S_{rain}$ = No  = 2 (P- = 2/5)
- $E(S_{rain}) = -3/5 * log_2 * 3/5 - 2/5 * log_2 * 2/5$
- $E(S_{rain}) = 0.971 $ çünkü homojen bir dağılım söz konusu karmaşıklık yok. 



- $Gain(S, outlook) = 0.94 - [5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971] $
- $Gain(S, outlook) = 0.2464$

Sonuç olarak Outlook(sütunun=feature)'un Information Gain'nin bulmuş oluyoruz. 

Aynı yöntemlerle, 
- Gain(S, Outlook) = 0.2464
- Gain(S, Temperature) = 0.0289
- Gain(S, Humidity) = 0.15
- Gain(S, Wind) = 0.04

olarak bulunur. 

Burda amacımız en büyük bilgi kazancını bulmaktı. (Gain) baktığımızda en büyük bilgi kazancı Gain(S, Outlook) = 0.2464 ile tespit edilir.  Bu, root node(düğüm)  "outlook" olarak tespit edilir.  Bu root node (outlook) kaça ayrılacağını kaç alt entropi hesapladıysak ona göre alt düğümlere ayrılacaktır. (Sunny, Overcast, Rain) olarak 3'e ayrıldığı görülmektedir.   Bunların (leaf) mi yoksa (node) mu olduğunu tespit etmek için, 

- Sunny = 2 pozitif, 3 negatif var.
- Overcast = 4 pozitif (yes) yani "leaf" olarak atanır.
- Rain = 3 pozitif, 2 negatif var.

Bu duruma bakıyoruz ve Overcast 4 pozitif olduğundan alt dallanma olmamaktadır. Ancak  Sunny ve Rain alt dallanma yapmaktadır.  İlk önce veri setinden Sunny kısmına odaklanıyoruz. 
-  Outlook'un Sunny olan kısımlarının tamamını seçiyoruz ve Ve yukarıda yapılan $Gain(S, outlook)$ için yapılan kısmı bu sefer $Gain(S, sunny)$ için yapıyoruz. sırasıyla temperature, humidity ve wind kısımlarını yapıp alt dal kısımlarını yapıyoruz. Bu işlemler alt dallanmalar düğümler varsa devam edecek eğer leaf varsa sonlanacak. Ardından Bu işlemler,
-  $Gain(S, rain)$ içinde devam edecektir.






#### CART (Sınıflandırma ve Regresyon Ağaçları)

**Algoritma Akışı** 
1. Her özniteliğin, **Gini impuritiy (gini belirsizliği)** değerini en düşük Gini impurity değerine sahip özniteliği seç
2. Karar ağacı düğümünü seçilen özniteliğin değerleriyle genişlet.
3. Koşul: Başka sınıflandırılmamış örnek kaldı mı?
4. Koşul Evet ise 1. adıma git: Kalan öznitelikler ile devam et. 

**Gini Impurity**

- Gini belirsizliği, bir başka karar ağacı algoritması olan CART(Sınıflandırma ve Regresyon Ağaçları) tarafından kullanılan bir ölçümdür.
- Bir düğümdeki veri noktalarının farklı sınıflara dağılımının ne kadar karışık olduğunu ölçer.
  - Burada Gini = karışıklık ise karar ağaçlarında karışıklığın(gini) az(düşük) olmasını isteriz.
- Gini karışıklığı, $[0, 0.5]$ arasında bir değer alır. O en saf durumu (yani tüm veri noktalarının aynı sınıfa ait olduğu durumu), 0.5 ise en karışık durumu ifade eder.
   - 2 etiket alırsa -> $[0, 0.5]$ arasında
   - N etiket alırsa -> $[0, 1]$ arasında gini değeri değişiklik gösterecektir.
- Bir düğümün **Gini karışıklığı ne kadar düşükse, o kadar homojen sınıflara sahip olur** ve böylece daha iyi bir bölünme kriteri olarak kabul edilir.
    - 0 : homojen
    - 1 : heterojen (karmaşık)

![Resim Açıklaması](images/gini_impurity.png)


**Gini Impurity Örneği** 

Yes ve No etiketine sahip 144 veriden oluşan Heart Disease (Kalp Hastalığı) ile ilgili bir durum. Kalp hastalarının görülme durumu, 
- Yes : 105
- No  :  39

Böyle bir verimiz varsa, Bunun Gini değerini hesaplayalım. Burda Yes ve No olarak 2 etiket olduğu için $0, 0.5$ arasında gini değerini alabilir. 2'li sınıflandırma problemi. Burda etiket sayısı Yes ve No olduğu için  $i={0,1}$ değerlerini alır. 
- $P-0 = Yes$

- $P-1 = No$
- $1- [(P_0)^2 + (P_1)^2)$
- $1- [(105/144)^2 + (39/144)^2) = 0.4$

Sonuç $0.4$ çıkması karışıklığın yüksek olduğu anlamına gelir. 



Örnek;  $100$ adet veri setinden   A etiketinden 100 adet, B etiketinden 0 tane olsun. Bunun Gini değerini hesaplayalım. 

- $P-0 = A$
- $P-1 = B$
- $1- [(P_0)^2 + (P_1)^2)$
- $1- [(100/100)^2 + (0/100)^2) = 0$

Sonuç $0$ çıktığından gini belirsizliğinin olmadığı anlamına gelir. 

**Cart Durum Çalışması**

| Weekend | Weather | Parents | Money | Decision |
|---------|---------|---------|-------|----------|
| w1      | Sunny   | Yes     | Rich  | Cinema   |
| w2      | Sunny   | No      | Rich  | Tennis   |
| w3      | Windy   | Yes     | Rich  | Cinema   |
| w4      | Rainy   | Yes     | Poor  | Cinema   |
| w5      | Rainy   | No      | Rich  | Stay In  |
| w6      | Rainy   | Yes     | Poor  | Cinema   |
| w7      | Windy   | No      | Poor  | Cinema   |
| w8      | Windy   | No      | Rich  | Shopping |
| w9      | Windy   | Yes     | Rich  | Cinema   |
| w10     | Sunny   | No      | Rich  | Tennis   |


Örnek sayısı 10,  feature öz niteliklerimiz {Weather, Parents, Money}, Etiketimiz ise **Decision** dır.  Biz decision'ı tahmin etmeye çalışacağız. 4 tür etiket olduğundan 4'lü sınıflandırma problemidir. Burda da **{Cinema, Tennis, Stay In, Shopping}** olmak üzere 4 farklı etiket söz konusudur. 

Amacımız; hava durumuna, ailemizin yanımızda olup olmamasına, ve para durumumuza göre yapacağımız aktiviteye karar vermemizdir. Bunun için, Gini indeksini kullanacağız, her bir feature ait gini değerini hesaplayacağız sonrasında ginilerin ağırlıklı ortalamasını hesaplayacağız ve karar verilecek. 

1. **Adım Money**

Money 	{Rich, Poor) <br>
- Money_rich	7 adet 
- Money_poor	3 adet

|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Money (Poor)** | 3      | 0      | 0        | 0       |

<br>


- $Gini(Money_{poor}) = 1 - [(3/3)^2 + (0/3)^2 + (0/3)^2 + (0/3)^2]$
- $Gini(Money_{poor}) = 0$

|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Money (Rich)** | 3      | 2      | 1        | 1       |

<br>

- $Gini(Money_{rich}) = 1 - [(3/7)^2 + (2/7)^2 + (1/7)^2 + (1/7)^2]  $
- $Gini(Money_{rich}) = 0.69$

<br><br>
- **Ağırlıklı Ortalama**  
- $Gini(Money) = 0 * 3/10 + 0.69 * 7/10  $
- $Gini(Money) = 0.48$

2. **Adım Parents**

- Parents	{Yes, No) 
- Parents_yes	5 adet
- Parents_no	5_adet

|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Parents (Yes)** | 5      | 0      | 0        | 0       |

<br>


- $Gini(Parents_{yes}) = 1- [(5/5)^2 + (0/5)^2 + (0/5)^2 + (0/5)^2 ]$
- $Gini(Parents_{yes}) = 0$

|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Parents (No)** | 1      | 2      | 1        | 1       |

<br>

- $Gini(Parents_{no}) = 1- [(1/5)^2 + (2/5)^2 + (1/5)^2 + (1/5)^2 ]  $
- $Gini(Parents_{no}) = 0.72$

<br><br>
- **Ağırlıklı Ortalama**  
- $Gini(Parents) = 0 * 5/10 + 0.72 * 5/10 $
- $Gini(Parents) = 0.36$

3. **Adım Weather**

- Weather	{Yes, No)
- $Weather_{sunny} = 3$  adet
- $Weather_{windy} = 4$  adet
- $Weather_{rainy} = 3$  adet


|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Weather(sunny)** | 1      | 2      | 0        | 0       |

<br>


- $Gini(Weather_{sunny}) = 1- [(1/3)^2 + (2/3)^2 + (0/3)^2 + (0/3)^2 ]$
- $Gini(Weather_{sunny}) = 0.44$


|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Weather_{windy}** | 3      | 0      | 1        | 0       |

<br>

- $Gini(Weather_{windy}) = 1- [(3/4)^2 + (0/4)^2 + (1/4)^2 + (0/4)^2 ] $
- $Gini(Weather_{windy}) = 0.375$


|          | Cinema | Tennis | Shopping | Stay In |
|----------|--------|--------|----------|---------|
| **Weather_{rainy}** | 2      | 0      | 0        | 1       |

<br>

- $Gini(Weather_{rainy}) = 1- [(2/3)^2 + (0/3)^2 + (0/3)^2 + (1/3)^2 ] $
- $Gini(Weather_{rainy}) = 0.44$


<br><br>
- **Ağırlıklı Ortalama**  
- $Gini(Weather) = 0.44*3/10 + 0.375 * 4/10 + 0.44*3/10 $
- $Gini(Weather) = 0.41$

**Ağaç yapısının oluşturulması**

- Gini(Money)	0.48
- Gini(Parents)	0.36
- Gini(Weather)	0.41

Feature'ların  ağırlıklı ortalamalarından **en küçük** olanı yarışı kazanır ve kök düğüm olarak seçilir. Burda  $ Gini(Parents)	0.36 $  değeri ile aday kök düğüm **Parents** seçilir. 

![Resim Açıklaması](images/card.png)

Çıkan durumda Parents yes olma durumunda Cinema yaprağına ulaşılır, ancak No çıkması durumunda oluşabilecek durumlar farklı olduğundan **Parents(No)** durumu için tüm işlemler 1. adımdan başlar ve bu şekilde son yaprağa ulaşılana kadar devam edilir. 

Bu işlemler Parents(No) için Ginisi hesaplandığında aşağıdaki sonucu ulaşılacaktır. 

![Resim Açıklaması](images/cart_tree2.png)

#### Karar Ağaçları Hiperparametreleri

- **Maksimum Derinlik (max_depth) :**

Karar ağaçlarında derinliği belirler. Bu parametre ağacın kaç düğüme kadar dallanacağını belirler. Derin bir ağaç aşırı uyum sağlayabilir yani overfitting ezberlemeyi sağlayabilir. Bu nedenle bizim algoritmamızın(modelimizin) jenerikliğini genelleme yeteneğini azaltabilir. Bu nedenle derinliği belirlememiz gerekebilir. Çok derinlikte olması istenmez orta derinlikte olması tercih edilir. 

- **Minimum Bölme Boyutu (min_samples_split) :**

Bir düğümün bölünmesi için gereken minimum veri noktası sayısını belirler. Bu parametre ağacın bölünme yapmadan önce ne kadar veri toplaması gerektiğini kontrol eder. Düşükse bölünme yapması istenmez çünkü overfittingi arttırır. 

- **Minimum Yaprak Boyutu (min_samples_leaf) :**

Bir düğümde bulunması gereken minimum veri noktası sayısını belirler. Bu parametre ağacın daha fazla dallanmasını önler ve aşırı uyumu (overfittingi) engeller. 
 
- **Maksimum Özellikler (max_features) :**

Bir düğümde değerlendirilecek maksimum özellik sayısını belirler. Bu parametre her düğümde hangi özelliklerin göz önünde bulundurulacağını kontrol eder. Daha küçük bir değer modelin daha az karmaşık olmasını sağlar ve aşırı uyumu azaltabilir. 

- **Bölünme Kriteri (criterion) :**
Bölünme kritlerlerinden en çok kullanılanı Gini ve Entropi 

- Bu hiperparametrelerin ayarlanması için kapsamlı arama ve çapraz doğrulama gibi yöntemler kullanılmaktadır. 

#### Karar Ağaçlarının Uygulama Alanları

- Sınıflandırma problemleri
- Regresyon Problemleri
- Pazarlama ve Satış Analizi
- Risk Değerlendirmesi
- Sağlık ve Tıp
- Endüstriyel Üretim ve Kalite Kontrol
<br> <br>

| Avantajları | Dezavantajlar|
|------------|-----------------|
| Anlaşılabilirlik | Aşırı uyum (overfitting) |
| Değişken önemi | Duyarlılık |
| Çoklu Çıkışlı Modellere Uygunluk |Dengesiz veri kümeleri |
| Veri ön işleme ihtiyacının azalması | |

### Rasgele Orman (Random Forest) 

- **Rasgele ormanlar,** birden çok **karar ağacının** bir araya gelerek bir orman oluşturduğu bir **topluluk öğrenme** yöntemidir.  Makine öğrenmesinde rasgele orman kavramına enseble learning(topluluk öğrenmesi) denir.
- Her karar ağacı, farklı bir **alt örneklem** (boostrap sample) ve/veya **alt özellikler** (random subset of features) kullanılarak eğitilir.

![Resim Açıklaması](images/r_forest.png)


Burda Instance(veri)'lardan  100 adet olduğunu düşünelim. Biz burdan N adet Instance seçersek bu işleme **alt örnek** (boostrap sample) denir. Bir diğeri de bizim verimizin içerisinde feature'larımız var ve biz bu alt özelliklerde  bu featurelardan rastgele sayıda kullanıp (gini yada entropi) hesaplayıp bölünme işlemlerini yaparsak bu işleme **alt özellik** oluyor. 



#### Rasgele Orman Türleri

- Sınıflandırma için Rasgele Ormanlar
- Regresyon için Rasgele Ormanlar

Rasgele ormanların çıkma sebebi, overfittingin önüne geçmek ve daha büyük veri setleri ile daha karmaşık problemleri çözmek. 1 adet karar ağaçı erine N adet karar ağacının gücünden faydalanmak amacıdır. 

![Resim Açıklaması](images/r_forest_alg.png)

- Training dataset : 5 satır(sample), 5 sütun (feature) ve Y isimli tahmin (target) verilerimiz var. Burda target verileri 0,1 değeri olduğu için 2'li sınıflandırma problemidir.
- Boostrap : Bu kısım veri setini rastgele seçme işlemini gerçekleştiriyor.  Her veri setinde sample ve featureları rastgele olarak seçiliyor.
- Ensemble of threes : Rastegele seçilen veri setlerinde karar ağaçları oluşturuluyor.
- Bu karar ağaçları 0,1 arasında sınıflandırma kararı verecektir.
- Bu kararlardan en çok sayıya sahip olan hangisi ise etiket o kararı acaktır. 

#### Rasgele Orman Hiperparametreleri

- Ağaç sayısı (n_estimators)
- Özelliklerin sayısı (max_features)
- Ağaç derinliği (max_depth)
- Örnekleme Oranı (bootsrap) 

#### Rasgle Orman Uygulama Alanları

- Sınıflandırma
- Regresyon

| Zayıf Yönleri | Güçlü Yönler| 
|---------------|-------------|
| Eğitim süreci daha yavaş olabilir. | Overfitting'e karşı dirençlidir |
|                                    | genelleme yeteneği yüksektir.   |
| Yüksek ve düşük boyutlu veri setlerinde | Değişkenlerin önem derecesini belirleme |
| performansı sağlamaz.                   | yeteneğine sahiptir. 


### Lojistik Regresyon

- Lojistic regresyon, istatistik ve makine öğrenmesi alanlarında sınıflandırma problemlerini çözmek için kullanılan bir yöntemdir.
- Genellikle bağımlı değişkenin kategorik olduğu durumlarda kullanılır.
- Örneğin, bir müşterinin **bir ürünü satın alıp almama olasılığını** tahmin etmek gibi durumlarda kullanılabilir. 

Lojistic regresyon algoritmasının diğer algoritmalardan ayıran temel özellik, 
- Satın alma = 1
- Satın almama = 0

değerlerini verirken  lojistik regresyon bunların 1 yada 0 olma olasığını bize verir. Yani 
- O olma olasılığı  = 0,90
- 1 olma olasılığı  = 0,10

![Resim Açıklaması](images/loj_reg.png)

Lojistik regresyon, derin öğrenme algoritmanın temel mantığıyla aynıdır.  

#### Lojistik Regresyon Tahmini

* **İleri Yayılım (Forward Propagation)**

Lojistik regresyonun tahmini, ileri yayılım ile gerçekleştirilmektedir. 

![Resim Açıklaması](images/loj_reg_forward.png)


Örnekte 1 adet kedi fotoğrafı vardır. Bu fotoğraf renkli olduğu için bilinenler,
- En
- Boy
- Renk

değerleri var. Yani 3 boyutlu bir matris. Bu matris piksellerden oluşmaktadır.  Piksellerde $[0,255]$ arasında farklı değer alabilir. 

- **Amaç**
- Classification (sınıflandırma) : Trained edilmiş Lojistic Regresion algoritması ile. (LR). tahmin etmeye çalışmak. 
- Kedi resmini alıyoruz ve bunu N adet feature olduğu bir matris formuna dönüştürüyoruz.
- -> ile gösterilenler normalizasyon işlemleri.
- $x_0^{(i)} .. x_N^{(i)}$ : Kedinin id=1 olsun.  Bu durumda $x_0^{(1)}$   dir.
   - 1. resmin 0. feature'ı
     2. **0 .. N** : feature'lardır.
     3. **i** : resmin id'sini tutar.
     4. **x** : input = kedi (pixel) -> feature
     5. **$w_0 .. w_{12287}$** : w = weight olarak adlandırıyoruz. b = bias,  Bunlar logistic regresyondaki parametrelerdir.  Bu parametreler öğrenme işleminin gerçekleştirileceği ayarlanacak olan parametrelerdir. Yani weight ve bias parametrelerini belirledikten sonra logistic regres işleminde öğrenme işlemini gerçekleştirmiştir.
     6. **sigmoid fonksiyonu** : $w^T * x^{(i)} + b = z$,  bu işlemi yaparak $z$  değerini elde ederiz. Lojistik Regresyon algoritmamız olasılıksal bir değer çıkarır. Olasılıksal değerlerde $[0,1]$ arasında değişirler. Çıkan $z$ değeri $[0,1]$ arasında değer olmadığı için bu değeri lojistik fonksiyonuna sokacağız. Yani **sigmoid** fonksiyonuna sokacağız.  Lojistik fonksiyon, **sigmoid aktivasyon fonksiyonu** olarak adlandırılır.
     - İnputumuzun kedi olma olasılığı (P(Kedi)) = 0.73  kedi olarak tahmin etmiştir.
     - Bu işleme ileri yayılım (Forward Propagation) denir.

weight'ler ile X'i çarpıp, bias değeri ile toplanır ve çıkan sonucu **sigmoid fonksiyonuna** sokulup bir değer çıkar. Bu forward propagation'dır. Burdaki lojistik regresyon öğrenme dediğimiz kavram, weightlerin ve bias'ın belirlenmesi işlemidir. 

#### Lojistik Regresyon Eğitimi

Lojistik regresyon' da öğrenme = weight (w) ve bias (b) parametrelerinin belirlenmesi anlamına gelir.

* **Ağırlık:(w) ve Bias:(b)'ların başlatılması**
* **İleri Yayılım (Forward) Propagation**
  - İleri yayılımın başlatılabilmesi için ilk önce w, b değerlerine atamalar yapabilmeliyiz ki matematiksel işlemler yapılabilsin. Bu işlem nasıl yapılıyor?
    | w | b |
    |---|---|
    | 0 | 0 |
    |[-1|,1]|

    arasında bir değer atanabilir. 

    ![Resim Açıklaması](images/loj_los.png)

    - $x_1, x_2$ : input'lar
    - $w_1, w_2$ : ağırlıklar
    - $b$        : bias değeri.

    - $z = x_1 * w_1 + x_2 * w_2 + b$
    - $ y' = \hat{y} = \sigma(z)$
    - $ y'  $ : tüm makine öğrenme uygulamalarında **predicted value** yani **tahmin edilen** değerdir.
    - Buraya kadar yapılan işlemlerde **tahmin** söz konusuydu. Ancak eğitim aşamasında bizim bir de **Loss($\hat{y}, y$)** fonksiyonumuzun tanımlanması var.

* **Loss Fonksiyonun Hesaplanması**

Loss, maliyet yada kayıp olarak düşünülebilinir. Loss() fonksiyonun iki tane input değeri var. Bunlar

- $\hat{y}$ : tahmin edilen (predicted value) değerimiz. 
- y : Gerçek etiketimiz (real label)

| İşlem | Loss değeri |
|-|-|
|$L=(\hat{y}, y)$ | |
|$L=(Kedi, Kedi)$ | 0 |
|$L=(Köpek, Kedi)$ | ? |

? : Burda yanlış tahmin ettiği için bu tahmini düzeltmek gerekiyor. Bu düzeltme işlemi için de bir matematiksel loss() fonksiyonu tanımlanmış. 

$Loss(Y', Y)  = -(y * log(y') + (1 - y) * log(1 - y'))$

Açıklama:
- Loss(Y', Y): Kayıp (loss) fonksiyonu.
- y  : Gerçek etiket (ground truth).
- y' : Tahmin edilen değer (prediction).
- log: Doğal logaritma (ln) fonksiyonu.

Lojistik regresyon (logistic regression) için kullanılan Binary Cross-Entropy Loss fonksiyonudur. Lojistik regresyon, ikili sınıflandırma (binary classification) problemlerinde kullanılır ve bu loss fonksiyonu, modelin tahminlerinin gerçek değerlerden ne kadar uzak olduğunu ölçer.


* **Geri Yayılım (Backward Propagation)**

Geri yayılım,  Loss() fonksiyonundan - input verilerine kadar geriye gitmek ve weight ile bias parametrelerini güncellemek demektir. Geri yayılımda **türev** hesaplama söz konusudur. Loss'u weight ve bias' a göre bulabilirsek weight ve bias'ı da ona göre güncelleyebiliriz. 

* **Ağırlıkların Güncellenmesi**

Ağırlıkların güncellenmesi için **gradient descent** algoritması kullanılır. 

1. $w*x + b = z$
2. $\hat{y} = \sigma(z)$
3. $L(\hat{y}, y)$ <br>
4. $\frac{dL}{dw_1}, \frac{dL}{dw_2}, \frac{dL}{db} $ <br>
5. $\frac{dL}{dw_1} = \frac{dL}{d\hat{y}}, \frac{d\hat{y}}{dz}, \frac{dz}{dw_1} $
6. $\frac{dL}{dw_2} = \frac{dL}{d\hat{y}}, \frac{d\hat{y}}{dz}, \frac{dz}{dw_2} $
7. $\frac{dL}{db} = \frac{dL}{d\hat{y}}, \frac{d\hat{y}}{dz}, \frac{dz}{db} $





- $\frac{dlog_x}{dx} = \frac{1}{x}$  matematiksel işlem <br> <br>
- $Loss(Y', Y)  = -(y * log(y') + (1 - y) * log(1 - y'))$  işleminin türevi, 
- $\frac{dLoss}{d\hat{y}} = \frac{-y}{\hat{y}} + \frac{(1 - y)}{1 - \hat{y}}$

- $\frac{d\hat{y}}{dz} = $  işlemini çözmek için öncelikle
- $\sigma(z) = \frac{1}{1 + e^{-z}} = $  sigmoid işleminin türevini alırız.
- $\frac{d\hat{y}}{dz} = \hat{y}^2*e^{-z}$  ile sonucuna ulaşırız. <br> <br>

- $\frac{dz}{dw_1} = x_1$ <br>

- $\frac{dLoss}{d\hat{y}} * \frac{d\hat{y}}{dz} * \frac{dz}{dw_1} = \frac{dLoss}{dw_1} $ <br><br>

Loss değerimizin weight ve bias değerine göre türevleri (değişimi) aşağıdaki gibidir.  Böylece geri yayılım (backward propagation) işlemini gerçekleştirmiş oluruz. 

- $\frac{dLoss}{dw_1} =  (\hat{y} - y)*x_1 $
- $\frac{dLoss}{dw_2} =  (\hat{y} - y)*x_2 $
- $\frac{dLoss}{db} =  (\hat{y} - y) $

Şimdi ağırlıkların güncellenmesi işlemini gerçekleştirelim. 


Gradient Descent Algoritması 

- $w_1 = w_1 - \alpha * \frac{dL}{dw_1}$
- $w_1 = w_1 - \alpha * (\hat{y} - y)*x_1$
- $w_2 = w_2 - \alpha * (\hat{y} - y)*x_2$
- $bias = b - \alpha * (\hat{y} - y)$

Learning rate (Öğrenme oranı) (Lr $\alpha$, $\eta$)  kavramı algoritmanın öğrenme hızıdır. Bir hiperparametredir(hyperparameter). Bunu bizim tarafımızdan seçmemiz gerekiyor. Derin öğrenme uygulamalarında genellikle  $10^{-3}$ kullanılır. Ne kadar düşükse o kadar yavaş öğreniriz, ne kadar yüksekse hiç bir zaman global minimuma ulaşamayabiliriz. 
 

- $w_1 = w_1 - \alpha * (\hat{y} - y)*x_1$
- işlemini örnek olarak güncelleyelim.
- $w_1 = 0$  için,
- $\alpha = 10^{-3}$ olarak belirlemiştik
- $\hat{y}$, tahmin (prediction) edilen değerdi
- $y$, değeri gerçek değer
- $x_1$, de giriş değerimiz. Bu bilenler yerine konulduğunda güncellenmeiş $w_1$ değerini elde ederiz.  Bu şekilde $w_2$ ve $bias$ değerlerini de güncelleyebiliriz. 

**Durum Çalışması**

Bir hücremizin kanserli mi?, değil mi? bunun sınıflandırma çalışmasını yapalım. 

Bu **binary classification** bir sınıflandırma türüdür. 
- 2 adet çıktı verecektir bunlar bizim gerçek değerlerimiz. Yani ( $y$ ) değerimiz. 
  - P : pozitif  (kanserli olabilir)
  - N : negatif  (kanserli değil)
- $x_1 = $ Hücrenin yoğunluk feature'u olsun.
- $x_2 = $ hücrenin boyut feature'u olsun.
- aşağıdaki gibi bir veri setimiz olsun. 

|$x_1$ | $x_2$ | $y$ |
|------|-------|-----|
| 1    |   1   |  N = 0 |
| 4    |   4   |  P = 1 |

1. $w_1, w_2 ve b$ değerlerinin initialize edilmesi gerekiyor.
|$w_1$ | $w_2$ | $b$ |
|------|-------|-----|
| -0.1    |   -0.1   |   0 |

değerlerini verelim. 

2. $z$ değerimizi hesaplayalım.

$ z = x_1*w_1 + x_2*w_2 + b $
$ z = 4 * (-0.1) + 4 * (-0.1) + 0$
$ z = -0.8$

3. $\hat{y} = \sigma(z)$  işlemini gerçekleştirelim.

yaklaşık olarak, $\hat{y} = 0,31$  değerini elde ederiz. 

4. Loss değerimizi hesaplayalım.
   $L(\hat{y}, y)$ den  $1 - 0.31 = 0.69$ sonucu ile  0.69 büyük olduğundan yanlış tahmin etmiştir.
5. Geri yayılım yöntemi ile tekrar deneyelim. (lr = 1) olsun.
   
- $w_1 = w_1 - \alpha * (\hat{y} - y)*x_1$
  $w_1 = -0.1 - 1*(0.31 - 1)*4$
  $w_1 = -2,86$
  
- $w_2 = w_2 - \alpha * (\hat{y} - y)*x_2$
  $w_2 = -0.1 - 1*(0.31 - 1)*4$
  $w_2 = -2,86$
 
- $bias = b - \alpha * (\hat{y} - y)$
  $bias = 0 - 1 * (0.31 - 1)$
  $bias = 0.69$
  
6. Bu adımda weightler ve bias güncellendikten sonra tekrardan ileri yayılım adımları gerçekleştirilir.
    
$z$ değerimizi hesaplayalım.

$ z = x_1*w_1 + x_2*w_2 + b $
$ z = 4 * (-2.86) + 4 * (-2.86) + 0.69$
$ z = -22.19$

$\hat{y} = \sigma(z)$  işlemini gerçekleştirelim.

yaklaşık olarak, $\hat{y} = 0$  değerini elde ederiz. 

Bu çalışma işleyiş olarak bu şekilde ilerlemektedir ve 
7. 

**Lojistik Regresyon Hiperparametreleri**
- Penalty (Cezalandırma) : 
- C (Cezalandırma Katsayısı) :
- Solver (çözücü) : modelin optimize edilmesinde kullanılan algoritmayı belirler.
- Max iterations (Maksimum iterasyon) : Optimizasyon algoritmasının maksimum iterasyonunu belirler. Model maksimum iterasyon sayısına ulaşmadan önce yakınsarsa eğitim işi sonlandırılır.
- Class Weight ( Sınıf Ağırlığı ) : Dengesiz sınıflara sahip veri setlerinde **class weight** parametresi kullanılarak farklı sınıflara farklı ağırlıklar verebilir. Bu da nadir sınıfların önemsenmesini sağlar. Dengesiz veri seti dengeli gibi kullanılabilir. 


**Lojistik Regresyon Uygulama Alanları**

+ Tıp ve sağlık
+ Finans
+ İnsan kaynakları

|Özellikler|Zayıf Yönler|Güçlü Yönler|
|-|-|-|
|Yapı| Lineer modeldir, karmaşık ilişkileri modelleyemez. | Basit ve yüksek yorumlanabilirlik sağlar. |
|Overfitting Riski| Büyük özellik setleriyle ve yüksek boyutlu veri setleriyle eğitildiğinde aşırı uydurmaya eğilimlidir. | Regülarizasyon ile kontrol edilebilir. |
|Çıktılar| Sınıflandırma problemlerine odaklanır, regresyon problemleri için uygun değildir. | Sınıf olasılıklarını ve sınıf tahminlerini sağlar. |



### Destek Vektör Makinesi (SVM - Support Vector Machine) 

- Destek vektör makinesi (SVM), sınıflandırma ve regresyon problemlerini çözmek için kullanılan güçlü bir makine öğrenimi algoritmasıdır. 
- SVM, veri kümesini sınıflar arasında en iyi şekilde ayıran bir **hiper düzlemi** bulmaya çalışır.
- SVM, özellikle doğrusal olmayan veri kümeleri için etkilidir, çünkü kernel yöntemi kullanarak veriyi daha yüksek boyutlu uzaylara dönüştürerek doğrusal olarak ayrılabilir bir yapı elde edebilir.

![Resim Açıklaması](images/svm.png)

Yukarıdaki görselde gösterildiği gibi iki farklı renk görülmektedir. Mavi ve Yeşil olmak üzere 2 sınıf görülmektedir. SVM, bu iki farklı sınıf arasında bir **hiperdüzlem** bulmaya çalışacaktır. 
- ilk önce iki farklı sınıf arasındaki destek noktalarını buluyor.
- Bulunan bu iki nokta arasındaki mesafeyi maksimize etmeye çalışmak amaçtır.
- Bu iki vektör arasındaki optimal hyperplane çizerek iki sınıf arasındaki ayrımı sağlamış oluyoruz. Peki bu çizgi nasıl bulunacak?
  - SVM de bu çizgiyi bulmaya learning(eğitim) deniyor. Bir durum çalışması ile bu hyperplane'i bulmaya çalışalım.
 
**SVM Durum Çalışması**

![Resim Açıklaması](images/svm_.png)

- Burda 8 noktamız var. Bu noktalardan,
- X olanları N (yani negatif) ve $-1$ olarak etiketleyelim.
- O olanları P (yani pozitif) ve $+1$ olarak etiketleyelim.
- Burdaki noktalara bakıldığında farklı gruplardan bir birine en yakın S1, S2, ve S3 noktaları olduğu görülmektedir. Yani 3 tane support vektör vardır. Bunlar,
  - $S1 = (1,0) $
  - $S2 = (3,1) $
  - $S3 = (3,-1) $
- üç tane noktamız olduğu için vektörleri biraz çoğaltmamız gerekiyor. Bunu çoğaltmak için 1 ile 1 bias'ı ile çoğaltabiliriz. Yani sonuna 1 ekliyoruz. (s1 üzeri tilda = ST1)
  - $ST1 = (1,0, 1) $
  - $ST2 = (3,1, 1) $
  - $ST3 = (3,-1, 1) $
- Burda bizim 3 tane önemli parametremiz var. Bu parametreler
  - $[\alpha1, \alpha2, \alpha3]$  olacaktır.  Bunun içinde 3 tane parametre ve 3 tane lineer denkleme ihtiyacımız var.

- $(\alpha1*st1*st1) + (\alpha2*st1*st2) + (\alpha3*st1*st3) = -1 $
- $(\alpha1*st2*st1) + (\alpha2*st2*st2) + (\alpha3*st2*st3) = +1 $
- $(\alpha1*st3*st1) + (\alpha2*st3*st2) + (\alpha3*st3*st3) = +1 $

<br> <br>

- $(\alpha1*st1*st1) + (\alpha2*st1*st2) + (\alpha3*st1*st3) = -1$
- $(\alpha1* 
    \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} * 
    \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}) + 
    (\alpha2*
    \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} *
    \begin{pmatrix} 3 \\ 1 \\ 1 \end{pmatrix}) + 
    (\alpha3*
    \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}*
    \begin{pmatrix} 3 \\ -1 \\ 1 \end{pmatrix}) = -1$
- $2 * \alpha1 + 4 * \alpha2 + 4 * \alpha3 = -1$

Bu şekilde diğer işlemleri de gerçekleştirdiğimizda bu 3 denklemin sonuçları aşağıda ki gibi olacaktır. 

- $2 * \alpha1 + 4 * \alpha2 + 4 * \alpha3 = -1$
- $4 * \alpha1 + 11 * \alpha2 + 9 * \alpha3 = +1$
- $4 * \alpha1 + 9 * \alpha2 + 11 * \alpha3 = +1$

Bu denklemler çözüldüğünde, 
- $\alpha1 = -3.5$
- $\alpha2 = 0.75$
- $\alpha3 = 0.75$

  <br>

$$ w =  
    \sum_{i=1}^{3} \alpha_i \cdot st_i  = 
    3.5 * \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} +
    0.75 * \begin{pmatrix} 3 \\ 1 \\ 1 \end{pmatrix}) + 
    0.75 * \begin{pmatrix} 3 \\ -1 \\ 1 \end{pmatrix}) = \begin{pmatrix} 1 \\ 0 \\ -2 \end{pmatrix}
$$

- $y = wx + b$ olarak düşünürsek, $\begin{pmatrix} 1 \\ 0 \\ -2 \end{pmatrix}$ deki değerlerden $(1,0)$ weight' karşılık gelir,  $-2$ ise bias'a karşılık gelir.
- Burda $y = 0$ olursa bias $-2$ brim olduğundan bias'ı y'yi x eksininde sağa doğru $2$ birim kaydırmamız gerekiyor. Eğer bu x eksinden y' ye paralel bir doğru çizersek bu bize hyperplane'i verecektir. Yani diğer bir ifade ile Negatif ve Pozitifleri birbirinden ayıran **hyper plane**'i elde etmiş oluyor.

![Resim Açıklaması](images/svm_hyperplane.png)

SVM'lerde eğitim, hayper plane'nin bulunması ve o da farklı lineer denklemlerin çözülmesi ile elde ediliyor. 

<br> <br> <br>

**SVM'lerin Hiper Parametreleri** 

- C : Doğruluk ve aşırı uydurma arasındaki dengeyi kontrol eder.  Doğruluk (accuracy), aşırı uydurma (overfitting)
- Kernel Tipi : lineer olmayan problemlerde kernel tipini, non-lineer, polinom olarak değiştirerek çözüme gidebiliyoruz.


**SVM Uygulama Alanları**

- Tıp
- finans
- Görüntü işleme
- Biyoinformatik
- Metin ve Dil İşleme

| Zayıf Yönler |  Güçlü Yönler |
|-|-|
| Veri seti çok büyükse aşırı uydurmaya eğilimli olabilir. | Doğrusal ve doğrusal olmayan sınıflandırma problemlerinde etkilidir. |

### Naive Bayes


- Naive Bayes, makine öğreniminde sınıflandırma ve olasılıklı tahminler yapmak için kullanılan olasılıksal bir yöntemdir.
- Temel olarak Bayes teoremi prensibine dayanır ve "Naive" (saf) adını, sınıf etiketlerinin birbirinden bağımsız olduğunu varsayan basit bir varsayıma dayanır.

![Resim Açıklaması](images/naive_bayes.png)


Burdaki denklemde bulunması istenen kavram $P(A\B)$ dir. Yani B verildiğinde A' nın olma olasılığı. 

**Naive Bayes Akış Şeması** 

![Resim Açıklaması](images/naive_bayes_akis.png)

- **Train Data** : Eğitim veri setidir. Eğitim veri setindeki iki önemli parametre var,
  - $x -> B$  : 
  - $c_k -> A$ :
- **prior** : Bu kavram ön bilgi, öncül bilginin hesaplanması isteniyor. $P(c_k)$, yani $c_k$ nın olma olasığı. Burdaki $c_k$ bayes teoremindeki $A$ ya karşılık gelmektedir. (prior = $P(A)$),  $P(B)$ de $x$ e karşılık gelmektedir.
- **posterior** : $P(A\B)$ veya $P(c_k\x)$ dir.
- $P(B\A)$ aslında bu likehood(olabilirlik). Bu da algoritma da $P(x\c_k)$  

**Dataset**

- parents : ailenin yanında olup olmaması,
- money : paranın olup olmama durumu
- y : hedef değişkeni, hafta sonu aktivite yapıp yapmacağımızın durumu

|parents|money|y|
|-|-|-|
|yes|rich|yes|
|yes|poor| ? |



- y : (yes/no)
- $P(c_k) = P(yes)$
- $P(c_k) = P(no)$
- $P(c_k)$ - hypothesis

- x : feature (new instance)
  - x : parents, yes
  - x : money, no
- Bu problemi bayes teoremi ile çözmeye çalışalım.
$P(yes | p=yes, m= poor) =  P(p=yes, m=poor | yes) $

**Durum Çalışması**

| Day  | Outlook   | Temp | Humidity | Wind   | PlayTennis |
|------|-----------|------|----------|--------|------------|
| d1   | Sunny     | Hot  | High     | Weak   | No         |
| d2   | Sunny     | Hot  | High     | Strong | No         |
| d3   | Overcast  | Hot  | High     | Weak   | Yes        |
| d4   | Rain      | Mild | High     | Weak   | Yes        |
| d5   | Rain      | Cool | Normal   | Weak   | Yes        |
| d6   | Rain      | Cool | Normal   | Strong | No         |
| d7   | Overcast  | Cool | Normal   | Strong | Yes        |
| d8   | Sunny     | Mild | High     | Weak   | No         |
| d9   | Sunny     | Cool | Normal   | Weak   | Yes        |
| d10  | Rain      | Mild | Normal   | Weak   | Yes        |
| d11  | Sunny     | Mild | Normal   | Strong | Yes        |
| d12  | Overcast  | Mild | High     | Strong | Yes        |
| d13  | Overcast  | Hot  | Normal   | Weak   | Yes        |
| d14  | Rain      | Mild | High     | Strong | No         |





$
P(c_k\x) = P(x\c_k) * P(c_k)
$

- $P(c_k\x)$ : posterior
- $P(x\c_k$  : likehood
- $P(c_k)$   : prior


**Dataset** teki  $P(yes)$ ve $P(no)$   olma olasılık değerleri. 
- $P(yes) = 9/14$
- $P(no) = 5/14$

| Outlook | Temp | Humidity | Wind   | PlayTennis |
|---------|------|----------|--------|------------|
| Sunny   | Cool | High     | Strong |     ?           |


Bu durumlarda tenis oynayıp oynayamama durumu nedir? 

- $P(x\c_k)$
- $c_k$ = yes
- $x = sunny, cool, high, strong$

Bu durumda **"sunny, cool, high, strong"** hava durumlarına göre **"yes" ve "no"** olma olasıklar tablosunu çıkartalım. 

| Outlook   | Yes  | No   |
|-----------|------|------|
| Sunny     | 2/9  | 3/5  |
| Overcast  | 4/9  | 0/5  |
| Rainy     | 3/9  | 2/5  |


| Temp | Yes  | No   |
|------|------|------|
| Hot  | 2/9  | 2/5  |
| Mild | 4/9  | 2/5  |
| Cool | 3/9  | 1/5  |



| Humidity | Yes  | No   |
|----------|------|------|
| High     | 3/9  | 4/5  |
| Normal   | 6/9  | 1/5  |


| Wind   | Yes  | No   |
|--------|------|------|
| Strong | 3/9  | 3/5  |
| Weak   | 6/9  | 2/5  |




- **P(yes\x)** = P(x\yes) * P(yes)
- **P(yes\x)** = P(sunny\yes) * P(Cool\yes) * P(high\yes) * P(Strong\yes) * P(yes)
- **P(yes\x)** = (2/9) * (3/9) * (3/9) * (3/9) * (9/14)
- **P(yes\x)** ≈ 0.0053


- **P(no|x)** = P(x\no) * P(no)
- **P(no|x)** = P(sunny\no) * P(cool\no) * P(high\no) * P(strong\no) * P(no)
- **P(no\x)** = (3/5) * (1/5) * (4/5) * (3/5) * (5/14)
- **P(no\x)** ≈ 0.0206


Bu çıkan sonuçları **normalize edelim. $[0,1]$ arasında sıkıştıralım. Çünkü çıkan sonuçlar bir olasılıksal değerdir. Tam olarak ne olduğu anlaşılmıyor. Bunun normalize işlemini yapalım. 

- **P(yes\x)** = P(yes\x) / (P(yes\x) + P(no\x))
- **P(yes\x)** = 0.0053 / (0.0053 * 0.0206)
- **P(yes\x)** ≈ 0.20%
- **P(no\x)** = 0.80%

Çıkan sonuca göre belirtilen hava koşullarına göre %$ 80 $ oynanmayacağı tespit edilmiştir. 

**Naive Bayes Uygulama Alanları**

- Metin sınıflandırma
- Duygu analizi
- Tıbbi teşhis
- Pazarlama
- Biyoinformatik

|Özellikler|Zayıf Yönler|Güçlü Yönler|
|-|-|-|
|Hiperparametreler| Daha az hiperparametreye sahip olması, bu nedenle daha az esneklik sağlar. | Basit, hızlı ve düşük veri gereksinimiyle yüksek performans sağlar. |
|Öznitelik Bağımsızlığı|Öznitelikler arasındaki bağımsızlık varsayımı gerçek dünyada her zaman geçerli değildir. | Metin sınıflandırma ve spam filitreleme gibi bir çok uygulama alanında başarılıdır. |
|Hassasiyet|Genellikle çok karmaşık yapıları yakalayamaz, bu nedenle yükse hassasiyet gerektiren problemlerde performansı düşük olabilir. |Veri seti dengesizliğine ve gürültülü veriye karşı dayanıklıdır. |


### Lineer Regresyon

- Lineer regresyon, iki veya daha fazla değişken arasındaki ilişkiyi modellemek için kullanılan istatistiksel bir yöntemdir.
- özellikle, bağımsız değişkenlerin (genellikle $x$ olarak adlandırılır, bağımlı değişkenlere (genellikle $y$ olarak adlandırılır.) olan etkisini tahmin etmek için kullanılır.

Örnek: 
- ev fiyatı = $a_0 + OdaSayisi*a_1 + BahçeDurumu*a_2$
- ev fiyatı = y  (bağımlı değişken)
- Oda sayısı, bahçe durumu = x' lerdir. (bağımsız değişkenler.

![Resim Açıklaması](images/lineer_reg.png)

- $\theta_{1} $ = intercept(bias)
- $\theta_{2} $ = slope(eğimi) ifade eder.
- Observed value = gözlemlenen değer.
- Predicted value = tahmin edilen değer.
- Regresyonda ($y - \hat{y}$) loss değil hata deniyor.
- Denklem $Y = \theta_{1} + \theta_{2}*X$ dir.
- Lineer denklemde öğrenme dediğimiz (learning)  kavram $\theta_{1} ve \theta_{2}$ nin belirlenmesidir.

**Lineer Regresyon Türleri**

- Basit lineer regresyon. (bir tane bağımsız değişken vardır. $y = ax + b$ )
- Çoklu lineer regresyon  (birden fazla bağımsız değişken vardır. $y = ax_1 + bx_2 + cx_3 + b$)
- **Polinom regresyon**  lineer olmayan yapıya sahip regresyon türleridir. $y = b + ax_1 + cx_x^2$
- **Ridge ve Lasso Regresyon** :  Bu regresyon türleri aşırı uydurma türlerini yani overfitting'i azaltmak için kullanılır. Ridge regresyonu, katsayılarının karelerinin toplamını sıfırlayarak modelin karmaşıklığını azaltır. Lasso regresyonu ise katsayıların mutlak değerlerinin toplamını sıfırlayarak aynı işlevi görür.

**Lineer Regresyon Durum Çalışması** 

| Oda Sayısı (x) | Ev Fiyatı (y) |
|-----------------|---------------|
| 1               | 1.2           |
| 2               | 1.8           |
| 3               | 2.6           |
| 4               | 3.2           |
| 5               | 3.8           |

Verilen bilgilere göre lineer grafik durumu aşağıdaki gibidir. 

![Resim Açıklaması](images/lineer_reg_ornek.png)

- Verilen bilgilere göre $x = 6$ değeri için $y$ değeri kaçtır?
- Denklemimiz : $y = 6*a + b$ lineer denklemine göre çözelim.
- a,b nasıl hesaplanır?


|||
|-|-|
|a=|$\frac{\overline{xy} - (\overline{x})(\overline{y})}{\overline{x^2} - \overline{x}^2}$|
|b=|$\overline{y} - a*\overline{x} $|

formüllerinden yararlanılır. 

|| Oda Sayısı (x) | Ev Fiyatı (y) | X * Y | X²  |
|-|-----------------|---------------|-------|-----|
|| 1               | 1.2           | 1.2   | 1   |
|| 2               | 1.8           | 3.6   | 4   |
|| 3               | 2.6           | 7.8   | 9   |
|| 4               | 3.2           | 12.8  | 16  |
|| 5               | 3.8           | 19    | 25  |
|ortalama| 3|2.52|8.88|11|

- $\overline{x}$ : x'lerin ortalaması
- $\overline{y}$ : y'lerin ortalaması

- $ a = \frac{8.88 - (3)*(2.52)}{11 - 9} $
- $ a = 0.66$
- $ b = 2.52 - 0.66* 3$
- $ b = 0.54 $

- $ y = ax + b$
- $ y = 0.66*x + 0.54$   den x = 6 oda için y' yi tahmin edelim.
- $ y = 0.66*6 + 0.54$
- $ y = 4.5$ olarak bulunur. 

**Uygulama Alanları**

- Ekonomi ve Finans
- Pazarlama
- Sağlık bilimleri

|Zayıf Yönler|Güçlü Yönler|
|-|-|
|Doğrusal olmayan ilişkileri yakalamakta zorlanabilir. | Basit ve anlaşılır modelleme yüksek yorumlanabilirlik|
|Outlier hassasiyeti| Kısa eğitim süresi|


### Çoklu Lineer Regresyon

- Çoklu lineer regresyon, birden fazla bağımsız değişkenin kullanıldığı bir regresyon türüdür.

![](images/c_lineer_reg.png)

- MPG : Bir aracın ağırlığı ve beygir gücü 1lt de kat edebileceği maksimum mesafeyi değiştirecektir.
- $MPG = \beta_0 + \beta_1*w + \beta_2*HP$

- Örnek olarak, bir evin satış fiyatını tahmin etmek için çoklu lineer regresyon kullanalım.
- Bağımlı değişkenimiz ev fiyatı olsun.
- Bağımsız değişkenlerimiz ise aşağıdaki gibi faktörler olsun.
  - Ev alanı
  - Oda sayısı
  - Banyo sayısı
  - Mahalle güvenlik puanı

$Ev_Fiyatı = \beta_0 + \beta_1 * Ev_Alanı + \beta_2 * Oda_Sayısı + \beta_3 *  Banyo_Sayısı + \beta_4 * Mahalle_Güvenlik_Puanı + \epsilon$

**Çoklu Regresyon Örnek Çalışma**

| x1 | x2 | y  |
|----|----|----|
| 1  | 4  | 1  |
| 2  | 5  | 6  |
| 3  | 8  | 8  |
| 4  | 2  | 12 |

- $ y = ax + b$  tekli lineer regresyon
- $ y = f(x_1, x_2) $
- $ a = [(x^Tx)^{-1}x^T]*y$  şeklinde a'yı bulabiliriz. 
- $ y = a_0 + a_1x_1 + a_2x_2$
- $ a = \begin{bmatrix}
a_0 \\
a_1 \\
a_2
\end{bmatrix} $
- $ x = \begin{bmatrix}
1 & 1 & 4 \\
1 & 2 & 5 \\
1 & 3 & 8 \\
1 & 4 & 2 \\
\end{bmatrix} $
- $ y = \begin{bmatrix}
1 \\
6 \\
8 \\
12
\end{bmatrix} $

1. adım : $X^T * X$  öncelikle $X$ matrisinin transpozunu alıp ($X^T$) alıp $X$ ile çarparız.

$X^T ⋅ X =  \begin{bmatrix}
4 & 10 & 19 \\  
10 & 30 & 51 \\  
19 & 51 & 105  
\end{bmatrix} $

2. adım : ($(X^T * X)^{-1}$), 1 adım da çıkan matrisin tersi alınır.

$$
(X^T \cdot X)^{-1} =
\begin{pmatrix}
4.03125 & -0.625 & -0.15625 \\
-0.625 & 0.625 & -0.125 \\
-0.15625 & -0.125 & 0.09375
\end{pmatrix}
$$

3. adım : $X^T * y$

$$
X^T \cdot y =
\begin{pmatrix}
27 \\
73 \\
148
\end{pmatrix}
$$

4. adım : $a = ((X^T * X)^{-1}) * X^T * y $

$$
a =
\begin{pmatrix}
-1.699 \\
3.484 \\
-0.055
\end{pmatrix}
$$



Bu, modelin regresyon katsayılarıdır:
- $a_0 = -1.699$
- $a_1 = 3.484$
- $a_2 = -0.055$


$y = -1.69 + 3.48*x_1 - 0.05x_2$

sonucuna ulaşırız. Burda $x_2$ katsayısının bir değeri yoktur negatif değer üretir, $x1$ katsayısı pozitif aldığı için y değerinin yükselmesini sağlar. 

**Uygulama Alanları**

- Pazarlama
- Finans
- Sağlık Bilimleri
- Eğitim



### Polinom Regresyon

- Lineer regresyonun genişletilmiş bir versiyonudur ve doğrusal olmayan ilişkileri modellemek için kullanılır. 
- Polinom regresyonda bağımsız değişkenlerin doğrusal birleşimleri yerine polinom terimleri kullanılır. 

![](images/polinom_reg.png)




Örnek: 

| x  | y  |
|----|----|
| 1  | 1  |
| 2  | 4  |
| 3  | 9  |
| 4  | 15 |


![](images/pol_reg_ornek.png)

- hyper parametre : $(n=2)$

- $Y = a_0 + a_1x + a_2x^2$
- $a = X^{-1}B$

- $$ X = \begin{pmatrix}
n & \sum x_i & \sum x_i^2 \\
\sum x_i & \sum x_i^2 & \sum x_i^3 \\
\sum x_i^2 & \sum x_i^3 & \sum x_i^4 \\
\end{pmatrix}
$$

- $$ B = \begin{pmatrix}
\sum y_i \\
\sum (x,y)\\
\sum (x_i^2, y_i)\\
\end{pmatrix}
$$


1. Adım: Veri Kümesi
- $ x = [1, 2, 3, 4] $ 
- $ y = [1, 4, 9, 15] $

2. Adım: Hesaplamalar
- $ (n = 4 ) $ (Veri sayısı)
- $ \sum x_i = 1 + 2 + 3 + 4 = 10 $
- $ \sum x_i^2 = 1^2 + 2^2 + 3^2 + 4^2 = 1 + 4 + 9 + 16 = 30 $
- $ \sum x_i^3 = 1^3 + 2^3 + 3^3 + 4^3 = 1 + 8 + 27 + 64 = 100 $
- $ \sum x_i^4 = 1^4 + 2^4 + 3^4 + 4^4 = 1 + 16 + 81 + 256 = 354 $
- $ \sum y_i = 1 + 4 + 9 + 15 = 29 $
- $ \sum x_i y_i = (1 \times 1) + (2 \times 4) + (3 \times 9) + (4 \times 15) = 1 + 8 + 27 + 60 = 96 $
- $ \sum x_i^2 y_i = (1^2 \times 1) + (2^2 \times 4) + (3^2 \times 9) + (4^2 \times 15) = 1 + 16 + 81 + 240 = 338 $

3. Adım: X ve B Matrislerini Oluşturma
- $ X $ matrisi:
  $$
  X = \begin{pmatrix}
  4 & 10 & 30 \\
  10 & 30 & 100 \\
  30 & 100 & 354 \\
  \end{pmatrix}
  $$
- $ B $ matrisi:
  $$
  B = \begin{pmatrix}
  29 \\
  96 \\
  338 \\
  \end{pmatrix}
  $$

4. Adım: Normal Denklemle \( a \)'yı Hesaplama
- $ a = X^{-1}B $

5. Adım: Sonuç
Hesaplamalar sonucunda katsayılar şu şekilde bulunmuştur:
$
a_0 = -0.75, \quad a_1 = 0.95, \quad a_2 = 0.75
$

Modelin formu:
$
Y = -0.75 + 0.95x + 0.75x^2
$


**Polinom Regresyon Hiperparametreleri**

- Polinom regresyonunun hiperparametreleri, genellikle polinomun derecesini belirlemek için seçilir.
- Polinom regresyonunda hiperparametre seçimini etkileyen bazı faktörler şunlardır:
  - Modelin performansı
  - Aşırı uyum ve aşırı basitlik
  - Bilgi kaybı

![](images/pol_reg_hyper.png)

**Uygulama Alanları**

- Fizik ve Mühendislik
- Finans ve Ekonomi
- İklim bilimi
- Tıp ve sağlık bilimleri
- Eğitim ve öğrenme analizi

|Zayıf Yönler|Güçlü Yönler|
|-|-|
|Yüksek dereceli polinomlar aşırı uyuma (overfitting) yol açabilir.| esneklik | 

# GÖZETİMSİZ ÖĞRENME

- Gözetimsiz öğrenme, etiketlenmemiş veri kümesi üzerinde yapılan bir makine öğrenmesi yaklaşımıdır.
- Bu yöntemde, veri kümesindeki yapıyı anlamak, gizli desenleri keşfetmek ve veri noktaları arasındaki ilişkileri belirlemek amaçlanır.
- Gözetimsiz öğrenme genellikle veri keşfi  ve veri ön işleme aşamalarında kullanılır.
- Kümeleme, veri noktalarını içsel özelliklerine dayanarak benzer gruplara ayırmayı içeren bir işlemdir.
  - K-Means Kümeleme
  - Hiyerarşik Kümeleme
  - DBSCAN (Gürültülü uygulamalar için yoğunluk tabanlı uzaysal kümeleme)

![](images/gozetimsiz.png)

**Gözetimsiz Öğrenme Kullanım Alanları**

- Kümeleme (Clustering)
- Boyut Azaltma (Dimensionality Reduction)
- Değişken keşfi (Feature Discovery)
- Yoğunluk Tahmini (Density Estimation)
- Anomalilerin Tespiti (anomaly Detection) 

## K-Mean Kümeleme 

- K-ortalamalar (K-Means) kümeleme, bir gözetimsiz öğrenme algoritmasıdır ve veri setindeki benzer örnekleri **belirli sayıda kümelere** (K) gruplamak için kullanılır.

![](images/k-mean.png)

- K = 2 için, 2 adet küme oluşturulmuştur. 

**K-Mean Algoritması**

- Küme merkezini başlatma : belirlenen K sayısı kadar veri seti içerisinden rastgele noktaların seçilmesi anlamına gelir. 
- Veri noktalarını kümelere atama : mesafeye göre atanır. (KNN) deki gibi.
- Küme merkezlerini yeniden hesaplama.
- Yeniden atama ve güncelleme

![](images/k-mean-alg.png)

- k = 2 seçiyoruz. 
- veri seti üzerinde rastegele 2 nokta seçiliyor.
- veri setindeki diğer noktaların bu noktalara olan uzaklıklarını hesaplayıp ilgili kümelere atılıyor.
- sonradan kümenin yeni merkezini hesaplayıp, yeniden atama ve güncelleme işlemleri gerçekleştirilir. 

**Örnek Çalışma**   yapılacak. 

## Hiyerarşik Kümeleme

- Hiyerarşik kümeleme, veri setindeki örnekleri bir hiyerarşik yapı içerisinde gruplamak için kullanılan bir gözetimsiz öğrenme yöntemidir.
- Bu yöntemde, her veri noktası bir küme olarak başlar ve ardından benzerlikleri veya uzaklıkları temel alarak bu kümeler birleştirilir veya bölünür.
- Bu işlem, bir ağaç benzeri bir hiyerarşi oluşturur. Hiyerarşik kümeleme, iki ana türde gerçekleştirilebilir:
  - Algomeratif (Birleştirici) hiyerarşik kümeleme
  - Bölücü hiyerarşik kümeleme
  ![](images/hiyerarsik.png)

**Aglomeratif (Birleştirici) Hiyerarşik Kümeleme Örneği**

**Bölücü Hiyerarşik Kümeleme Örneği**


## Gürültülü Uygulamaların Yoğunluğa Dayalı Mekansal Kümelenmesi (DBSCAN) 

**DBSCAN**,

- Gürültülü uygulamaların yoğunluğa dayalı mekansal kümelenmesi, gözetimsiz bir kümeleme algoritmasıdır ve özellikle belirsiz şekilli küme yapılarına sahip veri setlerini işlemek için kullanılır.
- DBSCAN, veri noktalarının yoğunluğuna ve birbirlerine olan mesafelerine dayanarak kümeleme yapar.

![](images/dbscan.png)



# PEKİŞTİRMELİ ÖĞRENME

- Pekiştirmeli öğrenme, bir yapay zeka (AI) modelinin, bir ortamla etkileşime geçerek belirli bir görevi gerçekleştirmeyi öğrenmesini sağlayan bir öğrenme türüdür.

![](images/p_ogrenme.png)
 

**Pekiştirmeli Öğrenme Türleri**

- Model tabanlı pekiştirme öğrenme,

Bu türde ajan çevresini ve olayları modellemek için bir iç model kullanır. Bu model ajanın mevcut durumunu ve gelecekteki durumunu tahmin etmek için kullanır. Model tabanlı yaklaşımlar çevrenin doğru bir şekilde modellenmesi ve modelin güncellenmesi için iyi bir tahmin yapılmasını gerektirmektedir. 

- Model tabanli olmayan pekiştirmeli öğrenme

Ajan, çevresini ve olayları modellere dayanmadan doğrudan gözlemleyerek öğrenir. Ajanın etkili bir şekilde öğrenmesi zorlaşabilir. 

- Değer tabanlı pekiştirmeli öğrenme

Ajanın her durum için bir değer belirleyen bir değer fonksiyonu tahmin etmesi gerekir. Bu değer ajanın durumunda ne kadar iyi olduğunu belirtir. Ajan burdaki değeri maksimize etmeye çalışacaktır.  

- Politika tabanlı pekiştirme öğrenme

Ajan bir eylem gerçekleştirmek için bir politika seçiyor. Burdaki politika mevcut durumdan en iyi sonuç elde etmek için hangi eylemlerin seçileceğini belirliyor.  Ajan en iyi optimizesini seçerek en iyi eylem stratejisini bulmaya çalışır. 

**Pekiştirmeli Öğrenme Terimleri**

- **Agent (Ajan)** : Bir ajan çevreyi algılayabilen, keşfedebilen ve üzerinde hareket edebilen bir varlıktır.
- **Environment** : Bir çevredeki varlığın içinde bulunduğu durumdur.
- **Action** : Bir ajanın ortam içerisindeki aldığı hamlelerdir, eylemlerdir.
- **State (durum)** : Ajan tarafından alınan her bir eylemden sonra ortam tarafından döndürülen bir durumdur.
- **Reward (ödül)** : Bu kavram, pozitif olmak zorunda değildir, negatifte olabilir. Ödül nedir? ajanın eylemini değerlendirmek için ortamdan ajanın alacağı geri bildirimlerdir.
- **Policy (politika)** : Ajanın mevcut durumuna dayanarak bir sonraki eylemi için uygulanacak stratejidir.
- **Value** : ödülün tersidir.
- **Q-value** : Mevcut bir eyleme ek parametre olarak kullanılır. q (quality) kalite anlamına gelmektedir. 
![](images/pekistirme.png)

**Pekiştirmeli Öğrenme Algoritmaları**

- Q-Learning : bir ajanın bir ortamda en iyi eylemi öğrenmek için deneme yanılma yöntemini kullanması ile ortaya çıkmış bir algoritmadır.
- Deep Q-Learning : derin pekiştirmeli öğrenme, sinir ağları söz konusudur. Hangi eylemi gerçekleştireceğimizi sinir ağları karar veriyor.

![](images/q-learning.png)

**Pekiştirmeli Öğrenme Uygulamaları**

- Robotik
- Kontrol
- Oyun oynama
- İşletme
- Üretim
- Finans sektörü

## Q-Learning (Q-öğrenme)

- Pekiştirmeli öğrenme alanında kullanılan bir öğrenme tekniğidir.
- Bir ajanın belirli bir ortamda öğrenmesini ve optimize etmesini sağlar.
- Temelde, bir ajan bir ortamda belirli eylemler gerçekleştirir ve bu eylemlerin sonuçlarını gözlemleyerek en uygun eylemleri öğrenir.

![](images/q-learning-.png)

Q-learning, model tabanlı olmayan bir yaklaşımdır. Ortam hakkında önceden bilgiye ihtiyaç duyulmaz. Ajan ortama yerleştirilir, ajan belirlenen eylemler doğrultusunda environment(ortamı) keşfeder ödüller alır ve böylece ortamı öğrenmeyi sağlamış olur. Ajan ortamda deneyim kazandıkça, her durum ve eylem için bir q-tablosu, q değerlerini tutan bir tablo oluşturulur. Bu q-tablosu, ajanın hangi eylemleri hangi durumlarda daha iyi sonuçlar verdiğini öğrenmesini sağladığı bir tablodur. 

![](images/q-learning-alg.png)

-initialize Q-table : rastgele değerler ile doldurulur. Örneğin, tüm değerler 0 yapılabilir. Yada -1 ile 1 arasında çok küçük değerler atanabilir. 
- Artık matematiksel işlemler yapılabilecek bir matris vardır.
- Choose an Action : 2 durum söz konusudur. Ajan mevcut durumu gözlemledikten sonra q-tablosundan rastgele bir değer seçer. Eğer q-tablosu doluysa en büyük değeri seçer.  En yüksek q değeri demek, nihayi hedefine ulaşabileceği yolu gösteren q değerleridir.  Eylem uygulanır. 

**Durum Çalışması**

![](images/q-learning-durum-calismasi.png)

Problem : Şekilde gösterildiği gibi bir kat planı var. Kat planı içerisinde 0, 1,2,3,4 olmak üzere toplam 5 oda var. Amaç ajanı odalardan birisine yerleştirmek ve 5 numaralı bölüme gitmesini hedeflemek

- Durumlar :

- $S = {0, 1, 2, 3, 4, 5}$

- Actions : action'lar odalar arasındaki geçişler olacaktır. 

- $A = {0, 1, 2, 3, 4, 5}$

- Revward Table : satırlar = satate, sütunlar = action olacaktır.

| | 0| 1| 2| 3| 4| 5|
|-|-|-|-|-|-|-|
|0|-1|-1|-1|-1| 0|-1|
|1|-1|-1|-1| 0|-1|100|
|2|-1|-1|-1|0|-1|-1|
|3|-1|0|0|-1|-0|-1|
|4|0|-1|-1|0|-1|100|
|5|-1|0|-1|-1|0|100|
- 

ödüller q-lerningte 
- -1 : negatif ödül ve bu action seçilemez, uygulanamaz anlamına gelir.
- -1 : duvar var arada
-  0 : kapıdan geçiş yapabilir ama 5' e ulaşamaz.
-  100 : asıl yapmasını istediğimiz sonuç 

- 

- Ajanımız rastegele 1 nolu odadan başlasın.

- Update formülü : $R(s,a) + 0.8 * max(Q(s', as')$

- Q-Table oluşturulması aşamasındayız. Q-table ilk atamada hepsine 0 veriyoruz.  

| | 0| 1| 2| 3| 4| 5|
|-|-|-|-|-|-|-|
|0|0|0|0|0|0|0|
|1|0|0|0|0|0|0|
|2|0|0|0|0|0|0|
|3|0|0|0|0|0|0|
|4|0|0|0|0|0|0|
|5|0|0|0|0|0|0|

Q-table yeni durumlara göre güncellenmesi 

| | 0| 1| 2| 3| 4| 5|
|-|-|-|-|-|-|-|
|0|0|0|0|0|80|100|
|1|0|0|0|64|0|0|
|2|0|0|0|64|0|0|
|3|0|0|80|51|80|0|
|4|64|0|0|64|0|100|
|5|0|80|0|0|80|100|

- ajanımız 1 nolu odada olduğu için  (1 den 5 e) nasıl gidilecek. 
- 0.8 öğrenme oranı (lr)
$$
Q(1, 5)  = R(1, 5) + 0.8 * max(\begin{bmatrix}
Q(5,1) \\
Q(5,4) \\
Q(5,5) \\
\end{bmatrix}) 
$$

- $$Q(1, 5)  = 100  + 0.8 * 0$$
- $$Q(1, 5)  = 100$$

Bu şekilde tüm durumlar q-table update ediliyor. Yani eğitim işlemi gerçekleştirilmiş oluyor. Şimdi test işlemini yapalım. 

- Agent : 0 nolu odada olma durumuna göre
- q-table de state : 0 için,  action daki en yüksek puanın 80 olduğunu ve 4 nolu oda olduğunu buluyor ve agent oraya geçiyor.
- state : 4 için baktığında en yüksek puanın 5 numaralı alan olduğunu görüyor ve ona doğru hareket ediyor. 

|avantajları | dezavantajları |
|-|-|
|Model bağımsız|Keşif ve exploitation arasındaki dengenin bulunması zor olabilir|
|Politika bağımsızı|Boyutlanabilirlik problemi ile karşılaşabilir. |
|Esneklik | Bazı durumlarda aşırı derecede optimist olabilir |
|Çevrimdışı eğitim | Performansın optimize edilmesi uzun sürebilir. |

![](images/deep-q-learning.png)

## Pekiştirmeli Öğrenme Yöntemleri 

- Monte Carlo Methods
- SARSA (State-Action-Reward-State-Action)
- Policy Gradient Methods
- Actor-Critic Methods
- Temporal Difference Learning (TD-Learning)
- Thompson Sampling
- Upper COnfidence Bound(UCB)

# BOYUT İNDİRGEME

- Makine öğrenmesinde boyut indirgeme, veri setindeki değişken sayısını azaltarak modelin performansını arttırmayı veya hesaplama süresini azaltmayı amaçlayan bir tekniktir.

![](images/pca.png)

Boyut indirgeme,
- öznitelik seçimi (Feature selection)
- öznitelik çıkarma (Feature Extraction)
- 
![](images/pca-ornek.png)

sol tarafta verilen renklerden 4 renge azaltılmış, sağ tarafta ize 4 renk seçimi yapılmıştır. 

## Temel Bileşen Analizi (PCA)

- Temel bileşen analizi (PCA - Principal Component Analysis), çok boyutlu veri setlerinde ki değişkenliği azaltmak için kullanılan bir boyut indirgeme tekniğidir.
- PCA, veri setindeki orjinal değişkenler arasındaki kolerasyonu dikkate alarak, bu değişkenlerin birbirleriyle olan ilişkisini açıklamak için yeni bir değişken seti oluşturur.

 ![](images/pca-ornek2.png)

PCA 1. en önemlisi ve 2. en önemlisi gösterilmektedir. 

**PCA Analizi** 

- veri normalizasyonu
- kovaryans matrisinin hesaplanması
- kovaryans matrisinin özdeğer ve özvektörlerinin hesaplanması
- Özdeğerlerin sıralanması
- Temel bileşenlerin seçimi
- Yeni veri setinin oluşturulması

**Durum Çalışması** 

|$X_1$|$X_2$|
|-|-|
|4|11|
|8|4|
|13|5|
|7|14|


Bu  PCA uygulamadasında 2 boyuttan 1 boyuta indirgeyeceğzi.  (N boyuttan M boyuta) 

- $x_1' in ortalaması = 8 $
- $x_2' in ortalaması = 8,5 $

- Kovaryans matrisinin hesaplanması
$$ S = 
\begin{bmatrix}
Cov(x_1, x_1) & Cov(x_1, x_2) \\
Cov(x_2, x_1) & Cov(x_2, x_2) \\
\end{bmatrix}
$$

$$
Cov(x_1, x_2) = \frac{1}{N -1} * \sum_{k = 1}^N ( x_
$$










3

## Doğrusal Diskriminant Analizi (LDA) 

 Doğrusal diskriminant analizi (LDA), sınıflandırma problemleri için kullanılan bir boyut indirgeme tekniğidir. 

 ![](images/lda.png)

- Sınıflar arasındaki ortalama vektörlerin hesaplanması
- Sınıflar arasındaki dağılımın hesaplanması
- Sınıflar arasındaki ayrımın maksimize edilmesi
- Veri setinin dönüştürülmesi

![](images/lda-ornek.png)

**Durum Çalışması** 




## PCA vs LDA arasındaki farklar

|Özellik|PCA (Temel Bileşen Analizi) |LDA (Doğrusal diskriminat analizi) |
|-|-|-|
|Amaç| Değişkenliği azaltmak ve veri setini daha az boyutta ifade etmek.| Sınıflar arasındaki ayrımı maksimize etmek. |
|Denetimli/Denetimsiz| Denetimsiz | Denetimli |
|Kullanım Alanları|Veri görselleştirmesi, veri sıkıştırma, gürültü azaltma|Sınıflandırma problemleri, sınıf ayrımını iyileştirme|
|Hesaplama|Veri setinin kovaryans matrisinin özdeğer ve özvektörleri|Sınıf ortalamaları ve kovaryans matrislerinin hesaplanması|
|Sonuçlar|Değişkenler arasındaki ilişkileri yakalar. |Sınıflar arasındaki farkı en iyi şekilde yaklar.|

![](images/pca-lda.png)

## T-Dağıtılmış Stokastik Komşu Yerleştirme (t-SNE)

T-dağıtılmış stokastik komşu yerleştirme (t-SNE), çok boyutlu veri setlerini görselleştirmek için kullanılan bir boyut indirgeme tekniğidir. 

![](images/t-sne.png)

- Yüksek boyutlu veri setindeki noktalar arasındaki benzerliklerin ölçülmesi.
- Düşük boyutlu bir uzaya dönüştürme.

![](images/t-sne.png)

# DEĞERLENDİRME METRİKLERİ

## Sınıflandırma İçin Değerlendirme Metrikleri

- Machine learning modellerinin performansını değerlendirmek için çeşitli metrikler kullanılır.
- Hem sınıflandırma (classification) hem de regresyon (regression) problemleri için farklı değerlendirme metrikleri vardır.

Bir modelin, 
- performansını ölçmek için,
- iyi mi, kötü mü olduğunu öğrenmek için
yapılan testlerdir.



* Sınıflandırma için değerlendirme metrikleri
  - Doğruluk (Accuracy) 
  - Kesinlik (Precision)
  - Duyarlılık
  - F1-Score
  - ROC Score
  - Karmaşıklık Matrisi (Confusion Matrix) 

### Doğruluk (Accuracy) 

- Doğru tahminlerin oranını ifade eder.

![](images/accuracy.png)  
- 

Bu grafikteki bilgiler, 
- **PREDICTED** : Modelin yaptığı tahminler
- **ACTUAL** : Test verisinin içersindeki sample'ların gerçekte ne olduğu,
- **Negative, Positive** : Burda 2 li bir sınıflandırma yapıldığı görülmektedir.
- **5, 10, 15, 70** : Bu değerler TEST veri setinde toplam,  $(5+10+15+70)=100$  adet test verisi olduğu anlamına gelir.

- **(TP - True Possitive)** : Burda modelimiz, pozitif tahmin etmiş ve gerçekte de Pozitif miş yani modelin doğru tahmin etmiş onun için **TP** yazıyoruz. 
  - **True**     : kısmı gerçekte ne olduğunu 
  - **Positive** : Modelimizin tahmin ettiği, Pozitif kısmını göstiyor.


* **TN - True Negative)** : Model netatif tahmin etmiş, gerçekte de negatif olduğu için doğru tahmin yapıldığından **TN** yazıyoruz. Yani negatif olduğunu model doğru tahmin etmiştir.  

* **(FP - False Positive)** : Model, pozitif olarak tahmin etmiş ama gerçekte yani yanlış tahmin olduğu için **FP** dir.  

* (FN - False Negative)** : Model negatif olarak tahmin etmiş ama gerçekte yanlış tahmin etmiş olduğu için **FN** yazıyoruz. 

Örneğin bu 100 test verisini A ve B olarak sınıflandırırsak, (Pozitif : A kategorisi olsun, Negatif : B kategorisi olsun. ) 
- $ TP = 5 $ : 5' tane A kategorisinden varmış ve modelin tahmini de A kategorisini tahmin etmiş,
- $ TN = 70 $ : B kategorisinden olanları B kategorisi olarak 70 tane doğru tahmin etmiş.
- $ FP = 10 $ : Burda B kategorisi olanların 10 tanesini B kategorisi olarak değilde A kategorisi olarak(pozitif olarak) model tahmin etmiş. **(yanlış tahmin)**
- $ FN = 15 $ : Burda A kategorisi olanların 15 tanesini B kategorisi olarak (netagif)  olarak tahmin etmiş. **(yanlış tahmin)**

$\frac{5 + 70}{5 + 10 + 15 +70 } = \frac{75}{100} = 0.75$

### Kesinlik (Precision) 

- Pozitif olarak tahmin edilen örneklerin ne kadarının gerçekten pozitif olduğunu gösterir.
  
$\frac{TP}{TP + FP} = \frac{5}{5 + 15} = 0.33$

### Duyarlılık (Recall) 

- Gerçek pozitiflerin ne kadarının doğru bir şekilde tanındığını gösterir.

$\frac{TP}{TP + FN}= \frac{5}{5+15} = \frac{5}{20} = 0.25$

### F1-Score

- Precision ve Recall 'ın harmonik ortalamasıdır.

$\frac{2 * Precision * Recall}{Precision + Recall} = \frac{2 * 0.33 * 0.25}{0.33 + 0.25} = 0.28$

F1-Score'u  1' e ne kadar yakınsa model o kadar iyidir anlamına gelir. 

### ROC Score

- Receiver Operating Characteristic (ROC) eğrisi altındaki alanı ifade eder.
- Sınıflandırma modelinin performansını değerlendirmek için kullanılır.

![](images/roc.png)

TP ve FP kullanılarak çizilen eğrilerdir(Roc Curve).  
- AUC : ROC eğrisinin altında kalan alanı ifade eder. Bu değer AUC değerini belirler. AUC sınıflandırma modelinin tüm treshold'lar altında ne kadar iyi performans gösterdiğini ölçen bir ölçüttür. AUC genellikle 0 ile 1 arasında değişir. 1' e ne kadar yakınsa modelin performansı o kadar iyidir. 

### Karmaşıklık Matrisi (Confusion Matrix) 

- Gerçek ve tahmin edilen sınıfları karşılaştıran bir tablodur.

![](images/confusion.png)

- 2 li sınıflandırmada

Burdaki örnekte doktoru model olarak seçelim ve hastayı da (actual yani test veri seti) olarak kabul edelim. 

- TP : Doktor, hamile olarak tahmin ediyor. (doğru tahmin) 
- TN : Doktor, hamile değilsiniz tahmin ediyor. (doğru tahmin)
- FN : Doktor, hamile olarak tahmin ediyor. (yanlış tahmin)
- TN : Doktor, hamile olarak tahmin ediyor. (yanlış tahmin)

- Bir den fazla sınıflandırmada karmaşıklık matrisi

![](images/confusion-n.png)









## Regresyon için Değerlendirme Metrikleri 

- Ortalama Mutlak Hata
- Ortalama Kare Hata
- Kök Ortalama Kare Hata
- R-Kare

### Ortalama Mutlak Hata (Mean Absuolute Error) 

- Gerçek ve tahmin edilen değerler arasındaki ortalama mutlak farkı ifade eder.

![](images/mea.png)

### Ortalama Kare Hata (Mean Squared Error) 

- Gerçek ve tahmin edilen değerler arasındaki ortalama karesel farkı ifade eder. 

![](images/mse.png)


### Kök Ortalama Kare Hata (Root Mean Squared Error) 

- MSE' nin kareköküdür.
- Gerçek ve tahmin edilen değerler arasındaki ortalama karesel farkın kareköküdür. 

![](images/rmse.png)


### R-Kare (R-Squared) 

- Bağımsız değişken tarafından açıklanan varyansın toplam varyansa oranını ifade eder.
- Modelin ne kadar iyi uyum sağladığını gösterir. 


# MODEL SEÇİMİ 

- Makine öğrenmesinde model seçimi, bir problem için en uygun modeli belirleme sürecidir.
- Bu süreç, veri setinin özelliklerine, problemin doğasına ve hedeflenen sonuçlara bağlı olarak yapılır.

**Model Seçiminin Önemi** 

- Makine öğrenmesinde model seçimi önemlidir.
  - Performansı etkiler.
  - Genelleme Yeteneğini Etkiler.
  - Hesaplama kaynaklarını etkiler.
  - Yorumlanabilirlik ve Açıklanabilirlik.
  - Uygulanabilirlik

**Model Seçme Kriterleri** 

- En uygun modeli seçmek, çeşitli yöntemlerin ve alan uzmanlığının bir karışımını gerektirir.
- Basit veya karmaşık bir model, geleneksel veya derin öğrenme modeli, doğrusal veya doğrusal olmayan bir model arasındaki seçim, bir kaç faktöre bağlıdır.
  - Problem Türü
  - Veri erişilebirliği ve kalitesi
  - Bilgisayar Kaynakları
  - Açıklanabilirlik
  - Ölçeklenebilirlik
  - Çoklu girişleri işleme yeteneği
  - Zaman kısıtları
  - Alan Bilgisi

**Model Seçme Yöntemleri**

- Makine öğrenmesinde model seçimi, bir problem için en uygun modeli belirleme sürecidir.
- Bu süreç, veri setinin özelliklerine, problemin doğasına ve hedeflenen sonuçlara bağlı olarak yapılır.

![](images/model_secme.png)

## Olasılıksal 

- Bilgi kriteri, istatistiksel procedürlerin etkinliğini değerlendirmek için kullanılan bir tür olasılıksal ölçümdür.
- Yöntemleri, en büyük olabilirlik tahmini'nin (MLE) log-olailirlik çerçevesini kullanarak en etkili aday modelleri seçen bir puanlama sistemini içerir.
- Örnekleme sadece model performansına odaklanırken, olasılıksal modelleme hem model performansına hem de karmaşıklığına odaklanır.
- Karmaşıklık derecesini ve belirli bir modelin veri kümesine ne kadar iyi uyduğunu hesaplamak için üç istatistiksel yöntem vardır.
  - Akaike bilgi kriteri ( akaike information criterion - AIC)
  - Minimum açıklama uznluğunu (minimum description length - MDL)
  - Bayesian bilgi kriteri (bayesian information criterion - BIC)

### Akaike Bilgi Kriteri 

- Amaç, bir modelin ne kadar iyi bir şekilde verileri açıkladığını ve ne kadar karmaşık olduğunu dengelemektir.

![](images/aic.png)

- $ln(L)$ : log likelihood,  ln -> log,  L -> olabilirlik.
- $k$ : modelin serbestlik derecesini temsil eder.
- AIC değeri ne kadar düşükse model o kadar iyidir.


### Minimum Açıklama Uzunluğu 

- Karmaşıklık ve uyum arasındaki dengeyi sağlar.
- MDL, veri setinin kodlanması ve modelin karmaşıklığı arasındaki toplam bit sayısını en aza indirmeyi amaçlar.


### Bayesian Bilgi Kriteri

- AIC gibi, model karmaşıklığı ve uyum arasındaki dengeyi sağlamak için kullanılır.

![](images/bic.png)

- $ln(n)$ : n-> veri seti içerisindeki sample sayısnı verir.  AIC den farklı olarak daha büyük veri setleri için daha karmaşık modelleri cezalandırmaktadır.

### Rastgele Bölünme 

- Bölme işlemi rastgele veya zamana dayalı olabilir.
- Rastgele bölme yöntemi, eğitim verisini eğitim, test ve doğrulama kümelerine rastgele böler.
- Bu işlem, modelin performansını çeşitli test kümelerinde kontrol etmek ve güvenilirliğini gözlemlemek için tekrarlanır.

![](images/rastgele_bolme.png)

- Zaman tabanlı bölme genellikle zaman bileşeni içeren veriler için yapılır, örneğin hava durumu veya borsa verileri gibi. 


![](images/rastgele_bolme-2.png)


### Örnekleme Yöntemleri 

- Örnekleme yöntemleri, modelin eğitim almadığı veri örnekleri üzerinde performansını görmek için veri örneklerini yeniden düzenlemenin basit yöntemleridir.
- Başka bir deyişle, örnekleme, modelin genelleme yeteneğini belirlememizi sağlar.
- Örnekleme yöntemleri,
  - Boostrap
  - Çapraz Doğrulama
    - K-Fold çapraz doğrulama
    - Leave-one-out (LOO)  çapraz doğrulama

**Boostrap**
- Bu teknik, bir veri setinden rastgele örneklemler çekmek suretiyle tekrarlanan örnekleme yaparak, popülasyon üzerinde istatistiksel sonuçların tahmin edilmesini sağlar.
- Boostrap yöntemi, genellikle küçük veri setleri veya sınırlı veriye sahip durumlarda parametrik olmayan istatistikleirn güven aralıklarını ve standart hatalarını hesaplamak için kullanılır.
  - Veri setinden rastgele örneklemler çekilir.
  - Örneklemler üzerinde istatistikler hesaplanır.
  - Bu adımlar birçok kez tekrarlanır.
  - Elde edilen istatistiklerin dağılımı incelenir. 

![](images/boostrap.png)


**K-Fold Çapraz Doğrulama**
- Veri setini k eşit parçaya bölünür. (katman)
- Ardından, her bir katman sırasyıla test seti olarak kullanılırken, diğer katmanlar birleştirilerek eğitim seti oluşturulur.
- Bu işlem x kere tekrarlanır ve her bir katmanın test seti üzerindeki performansı değerlendirilir.
- Sonuçlar genellikle ortalamalar alınarak rapor edilir.

![](images/k-fold.png)

yukarıdaki işlemde k=5 için, veri seti 5' e bölünmüştür. 

**Leave-One-Out(LOO) Çapraz Doğrulama
- Her bir veri noktası sırasıyla test seti olarak ayrılırken, geri kalan veri noktaları eğitim seti olarak kullanılır.
- Bu işlem veri noktalarının tamamı için tekrarlanır ve her bir veri noktasının test seti üzerindeki performansı değerlendirilir.

![](images/loo.png)

# REGÜLARİZASYON 

- Makine öğrenmesinde regularizasyon, bir modelin aşırı uyuma (overfitting) eğilimini azaltmak veya önlemek için kullanılan bir tekniktir.

![](images/regu.png)

## L1 Regularizasyon (Lasso Regularization) 

- L1 regularizasyonu, modelin katsayılarını (parametreleri) sıfıra yaklaştırmak için L1 normunu kullanır.
- Bu, bazı katsayıların tamamen sıfıra düşmesine neden olabilir, böylece model daha basitleşir ve daha iyi genelleme yapabilir.
  
![](images/l1.png)


## L2 Regularizasyon (Ridge Regularization) 

- L2 regularizasyonu, katsayıları sıfıra yaklaştırmak için karelerin toplamını (L2 normu) kullanır. Bu yöntem, büyük katsayıları azaltır ancak tamamen sıfıra düşmezler.
- Model karmaşıklığını azaltır ve aşırı uyumu önler.

![](images/l2.png)

**L1 ve L2 arasındaki farklar** 

- Öznitelik seçimi
- Robustlık
- Çözüm hızı


## ElasticNet Regularizasyon

- ElasticNet, L1 ve L2 regularizasyonlarını birleştirir.
- Bu hem L1 ve hemde L2 cezalarını birleştirerek her iki yaklaşımın avantajlarından faydalanır.
  
![](images/elastic.png)

## Hiperparametre Nedir? 

- Hiperparametreler, makine öğrenimi algoritmalarında kullanılan ve modelin davranışını ve performansını kontrol eden parametrelerdir.

**Hiperparametre ayarlamanın önemi** 
- Aşırı uyumun önlenmesi
- Performansın iyileştirilmesi
- Modelin stabilitesi
- Zamandan ve kaynaklardan tasarruf

**Hiperparametre ayarlama yöntemleri**
- Önce literatür taraması
- Manuel arama
- Kafes arama (grid search)
- Rastgele arama


![](images/mlearning.png)