# Makine Öğrenmesi


## Makine Öğrenmesi Nedir?

Makine öğrenmesi, belirli bir algoritmaya sahip olmayan problemlerin çözümünde kullanılan yöntemdir. Makine öğrenmesi sistemleri programlanmak yerine eğitilirler yani aslında makine öğrenmesi bilgisayarların kendi başlarına algoritma yazabilmesi olarakta tanımlanabilir. Klasik algoritma mantığında kurallar ve veri girdi olarak veririlir sonucunda ise çıktı olarak bir cevap alınır, makine öğrenmesinde ise cevaplar ve veri girdi olarak verilir ve sonucunda çıktı olarak kurallar alınır. 

Makine öğrenmesi modelleri bilinen girdi ve beklenen çıktılardan girdileri anlamlı çıktılara dönüştürmeyi öğrenirler bunu yaparken kurulan modelin iyileştirilmesi için beklenen çıktı ile gerçekleşen sonuç arasındaki fark ölçülür bu ölçüm modelin başarısı hakkında bilgi verir. Yani makine öğrenmesi için temel olarak 3 bileşene ihtiyaç duyarız:

   1. Veri Giriş Noktaları 
   2. Beklenen Çıktı 
   3. Algoritmanın Başarısının Ölçülmesi

 
    "Yapay öğrenme, model oluşturmada istatistik kuramını kullanır, çünkü temeli gözlenmiş bir örneklemden çıkarım yapmaktır. Bilgisayar bilimlerinin göreviyse iki türlüdür: Öncelikle, öğrenme altında yatan iyileme probleminin genelde çok büyük miktarda olan veri üzerinde etkin çözülebilmesi gerekir. İkincisi, öğrenilmiş bir modelin bellekteki gösterimi ve onu kullanarak çıkarım yapmak da etkin olmalıdır. Bazı uygulamalarda, öğrenme ya da çıkarım algoritmasının etkinliği, yani bellek ve zaman karmaşıklığı, öngörü başarısı kadar önemli olabilir." (Yapay Öğrenme - Ethem Alpaydın)  
   
Makine öğremesinin temelde yaptığı işlem verileri gözlemleyerek genellenebilir kurallar oluşturmaktır. Veri olmadan makine öğrenmesini de gerçekleştiremeyiz. 

## Veri Nedir? 

Veri ham (işlenmemiş) gerçek enformasyon parçacığına verilen addır. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.

## Veri Türleri Nelerdir?

* Kategorik (Nitel) Veriler:  İfadenin betimlenme durumudur. Sayılar kullanılabilir ancak buradaki sayıların ifadeyi ölçme anlamında sayısal bir değeri yoktur. 

    - Sınıflama (Nominal) ölçek
    
        * Ölçmede kullanılan en az bilgi veren ölçek türüdür.
        * Hiç bir matematiksel işlem yapılmaz fakat istatistiksel olarak yüzde , mod hesaplanabilir.

    - Sıralama (Ordinal) ölçek
    
        * Miktara göre büyüklük veya küçüklük sıralaması yapar.
        * Hiç bir matematiksel işlem yapılmaz fakat istatistiksel olarak yüzde , mod hesaplanabilir.
        
* Sayısal (Nicel) Veriler: Sayılarla ifade edilebilen değerlerdir.

    - Eşit aralıklı (Interval) ölçek
    
        * Eğitimdeki bütün ölçümler burada bulunur.
        * Başlangıç noktası bağıl sıfırdır.
        * Bilgi ,beceri veya başarıyı ölçmede kullanılır.
        * Ölçme sonuçları (-) negatif değerler de alabilmektedir.
        * İstatistiksel işlemler ve sadece toplama ve çıkarma işlemleri yapılabilir.

    - Oranlı (Ratio) ölçek
    
        * Buradaki sıfır gerçek sıfırı temsil eder.
        * En nitelikli ve en çok bilgiyi veren ölçek türüdür.
        * Bütün matematiksel ve istatistiksel işlemler yapılmaktadır.

## Değişken Nedir? 

Değişken gözlemden gözleme farklı değer alabilen niceliktir.

## Değişken Türleri 

Bağımlı değişken ve bağımız değişken olarak ikiye ayrılır. Bağımsız değişkenler gözlemlenerek bağımlı değişken tahmin edilir. Örneğin spam e-postaları tespit ederken bağımsız değişkenlerimiz e-postanın içeriği, konusu, kimden geldiği vb. gibi sıralanabilir, bağımlı değişkenimiz ise bu e-postanın spam olup/olmadığıdır. 



## Makine Öğrenmesinin İş Akışı

1. [Problemin Tanımı ve Veri Seti Oluşturma](#1)
1. [Başarı Ölçüsünü Seçmek](#2)
1. [Değerlendirme Protokolü Seçimi](#3)
1. [Verileri Hazırlama](#4)
1. [Modeli Kurmak](#5)
1. [Modeli İyileştirmek](#6)
1. [Düzenleştirme ve Hiperparametreleri Ayarlama](#7)

<a id=1></a>
## 1. Problemin Tanımı ve Veri Seti Oluşturma

* Model Seçimi için İki Durum Söz Konusu

    * Birincisi: Oluşabilecek değişken kombinasyonları ile oluşturulan modeller arasından en iyi modelin seçilmesi

    * İkincisi: Kurulan birbirinden farklı modeller arasından model seçimi

* Model Neye Göre Seçilir?

    * Regresyon için açıklanabilirlik oranı ve RMSE benzeri bir değer.

    * Sınıflandırma için doğru sınıflandırma oranı benzeri bir değer.
    
### Makine Öğrenmesinin Dört Kategorisi

#### 1. Denetimli Öğrenme

Denetimli öğrenme bir veri seti üzerindeki girdilerden\bağımsız değişkenlerden bilinen çıktılara/bağımsız değişkene olan eşleştirmeyi öğrenmeyi amaçlar. Makine öğrenmesinin en yaygın kullanılan kategorisidir. Sınıflandırma ve bağlanım problemlerinde kullanılır. 
    
   * Sınıflandırma: Hedef değişken kategorik bir veri ise sınıflandırma problemidir. 
       
       Örnek: Cinsiyet Tahmini(Kadın/Erkek), E-posta Kontolü(Spam/Spam Değil), Hava durumu(Güneşli/Yağmurlu/Rüzgarlı) vb.
   
   * Bağlanım: Hedef değişken sürekli bir veri ise bağlanım problemidir. 
       
       Örnek: Bir evin satış fiyatı, Dolar kuru tahmini, Hava sıcaklığı tahmin vb.

#### 2. Denetimsiz Öğrenme

Denetimsiz öğrenme genellikle denetimli öğrenmeden önce veriyi anlamak amacıyla uygulanan bir aşamadır. Amaç verilerdeki gürültüyü azaltmak, veriyi sıkıştırmak, veriyi görselleştirmek, korelasyon ilişkilerini keşfetmek için girdilerden herhangi bir bilinen hedef olmaksızın gerçekleştirirlir.

   * Kümeleme
   * Boyut Azaltma 

#### 3. Yarı Denetimli Öğrenme

Denetimli öğrenmenin özel bir biçimidir. Denetimli öğrenmeden farkı verilerin tamamı etiketli olarak verilmez.En çok bilenen örneği otokodlayıcılardır(autoencoder).

#### 4. Pekiştirmeli Öğrenme

Pekiştirmeli öğrenme, amaca yönelik ne yapılması gerektiğini öğrenen bir makine öğrenmesi yaklaşımıdır. Deneme yanılma yöntemi ile öğrenme işlemi gerçekleşir. Pekiştirmeli öğrenmede ajan adı verilen öğrenen makinemiz karşılaştığı durumlara bir tepki verir ve bunun karşılığında da sayısal bir ödül sinyali alır, amacı ödül puanını maksimuma çıkartmaktır. 

<a id=2></a>
## 2. Başarı Ölçüsünü Seçmek

* Regresyon
    - MSE
    - RMSE
    - MAE
* Sınıflandırma
    - Karmaşıklık Matrisi
    - ROC Eğrisi

<a id=3></a>
## 3. Değerlendirme Protokolü Seçimi

### Makine Öğrenmesi Modellerinin Değerlendirlimesi

Makine öğrenmesinde amaç modelin genelleştirilmesidir. Genelleşirme modelin hiç görmediği verilerde de başarılı olarak tahmin işlemini gerçekleştirmesidir. Bu işlemi gerçekleştirmek için eğitim işlemi gerçekleştirilirken veri seti eğitim, doğrulama ve test veri seti olarak üçe ayırırız.

### Eğitim - Doğrulama ve Test Veri Setleri

Model eğitim veri setinde eğitilir. Kurulan modelin parametrelerini güncellemek için doğrulama veri seti kullanır. Parametreleri güncellerken aslında eğitim işlemine devam ederiz. Model doğrulama veri seti üzerinden eğitilmemesine rağmen dolaylı olarak doğrulama veri seti hakkında bilgi sahibi olur. Modelin son hali ise test veri seti ile kontrol edilir. Test işlemi modelin hiç görmediği veriler üzerinde gerçekleştirilmelidir. Test veri seti üzerindeki performansına bakarak parametre ayarı yaparsak genelleştirme işlemine zarar vermiş oluruz. 

### Model Doğrulama Yöntemleri

Model doğrulama yöntemi seçilirken verinin temsil özelliğini kaybetmemesine, tekrar eden örnek içeren veri seti varsa test ve eğitim kısımlarının birbirinden farklı olmasına ve zaman serisi veri setileri üzerinde çalışırken veri setini karıştırmadan bölmeye dikkat edilmelidir. 

* Holdout Yöntemi
* K Fold
* Leave One Out
* Bootstrap 

#### Holdout Yöntemi

En basit doğrulama yöntemidir. Verilen veri setinin bir kısmı test için ayrılıp kalanıyla eğitim işlemi gerçekleştirilir. Fakat elimizde az veri varsa farklı karşılaştırmalar sonucunda farklı performans değerleri elde ederiz ki bu veri setinin istatistiksel olarak veri setinin gösterimini sağlamayak kadar küçük doğrulama ve test veri setine sahip olduğumuzu gösterir yani genelleştirme kuralına uymayan bir model elde ederiz. Küçük veri setlerinde K-fold doğrulama yöntemi kullanılması daha uygundur.

<center><img src="Hold-out.png"/><\center>

#### K Fold 
    
K-fold yönteminde veri belirenen k sayısı kadar eşit parçaya ayrılır. Her fold da ${\frac{1}{k}}$ kadarı test kalanı ise eğitim için kullanılır. Aşağıdaki görselde k=3 için bölme işleminin nasıl yapıldığ gösterilmiştir. Herbir işlemin sonucunda oluşan skor değerlerinin ortalaması alınarak modelin performansı ölçülür. 
    
<center><img src="k-fold.png"/><\center>

<a id=4></a>
## 4. Verileri Hazırlama

* Öznitelik çıkarımı
* Vektöre dönüştürme
* Normalizasyon
* Standardasyon

<a id=5></a>
## 5. Modeli Kurmak

İlk olarak amaç istatistiksel güce sahip model geliştirmektir fakat bu her zaman mümkün olmayabilir. Eğer problem oluştuysa kurduğumuz hipoteze dikkat etmek gerekir. Peki nedir buradaki hipotezimiz?

1. Tahminlerimizin verdiğimiz girdilerden geleceği hipotezi.
2. Elimizdeki verinin girdilerden çıktıları öğrenecek kadar bilgiyi içerdiği hipotezi.

Eğer bu hipotezlerde sorun yoksa son olarak bakmamız gerek noktalar

1. Son katman aktivasyonları
2. Kayıp fonksiyonu 
3. Eniyileme(optimization) yapılandırması

<a id=6></a>
## 6. Modeli İyileştirmek

Modeli iyileştirmek için bilmemiz gereken temel kavramlar vardır. Bu kavramlar bize modelin başarısı hakkında önemli bilgiler verir. 

* Önyargı/Yanlılık(Bias)
* Varyans(Variance)
* Aşırı Öğrenme(Overfitting)
* Yetersiz Öğrenme(Underfitting)

        "Makine öğrenmesinde ana husus eniyileme ve genelleştirme arasındaki çekişmedir. Eniyileme, eğitim veri setinde en iyi performansı vermesi için modeli güncellemeye (makine öğrenmesinde bu sürece öğrenme denilmektedir) karşılık gelirken, genelleştirme, modelin daha önce hiç görmediği veriler üzerindeki performansının ne kadar iyi olduğuna karşılık gelir. Oyunun amacı elbette genelleştirmeyi iyileştirmektir ama genelleştirme kontrol edilemediğinden sadece eğitim veri setinde modeli iyileştirebilirsiniz." (Python ile Derin Öğrenme - François Chollet)

### Önyargı(Bias) ve Varyans(Variance)

Yanlılık nedir?
    
Yanlılık, modelimizin ortalama tahmini ile tahmin etmeye çalıştığımız doğru değer arasındaki farktır. Yüksek önyargılı model, eğitim verilerine çok az dikkat eder ve modeli çok basitleştirir. Eğitim ve test verilerinde her zaman yüksek hataya neden olur.


Sapma(Varyans) nedir?

Değişkenlik, belirli bir veri noktası veya verilerimizin yayılmasını bildiren bir değer için model tahmininin değişkenlik gösterimidir. Yüksek değişkenliğe sahip model, eğitim verilerine büyük önem verir ve daha önce görülmemiş veriler üzerinde genelleme yapmaz. Sonuç olarak, bu tür modeller eğitim verilerinde çok iyi performans gösterir ancak test verilerinde yüksek hata oranlarına sahiptir.

### Aşırı Uydurma(Overfitting) ve Yetersiz Uydurma(Underfitting)

Overfitting: Modeli kurarken temel amacımız genelleştirmedir. Genelleştirmeye uymayan her model başarısızdır. Overfitting durumunda model eğitim veri seti üzerinde başarılı bir şekilde tahmin etse de daha önce görmediği test veri seti üzerinde başarılı tahmin gerçekleştirmez.

Underfitting: Model, eğitim verilerinin karmaşıklığını yakalamadığı için öngörücü yeteneğin zayıf olduğu bir model üretmek. Underfitting durumunda model öğreneme işlemini gerçekleştiremez. Yanlış özellikler hakkında eğitim yapılması, yeterli epok yapılması, çok düşük öğrenim hızı veya çok yüksek bir düzenleme oranı ile eğitim gerçekleştirilmesi underfitting durumuna sebep olur. 
    
<center><img src="bias_variance.png"/><\center>

<a id=7></a>
## 7. Düzenleştirme ve Hiperparametreleri Ayarlama

### Düzenleştime (Regularization)
 
Veri sayısını azaltmak, ağın kapasitesini düşürmek, ağırlıkları düzenlemek ve iletim sönümü gibi işlemlerle overfitting'i önlenebilir. Bu işlemlerin genel adına düzenleştirme(regularization) denir.

1.Ağırlıkların Düzenlenmesi

Amaç ağırlıkların dağılımının düzenli hale getirilmesidir. Kayıp fonksiyonuna bir maliyet eklenerek büyük değerler almasına engel olunur. İki şekilde  

1. L1 düzenlemesi
Ağırlıkları, ağırlıkların mutlak değerlerinin toplamına orantılı olarak cezalandıran bir düzenleme türüdür. Seyrek özelliklere dayanan modellerde, L1 düzenlemesi, alakasız veya çok az alakalı özelliklerin ağırlıklarını tam olarak 0'a getirmeye yardımcı olur ve bu da bu özellikleri modelden kaldırır. 

2. L2 düzenlemesi
Ağırlıkları, ağırlıkların karelerinin toplamı ile orantılı olarak cezalandıran bir tür düzenleme. L2 düzenlenmesi, aykırı ağırlıkların (yüksek pozitif veya düşük negatif değerlere sahip olanlar) 0'a yakın olmasına yardımcı olur ancak tam olarak 0 yapmaz. L2 düzenlenmesi, doğrusal modellerde her zaman genellemeyi iyileştirir.

2.İletim Sönümü (Dropout)
    Sinir ağlarını eğitmede yararlı bir düzenleme biçimidir. Dropout uygulanan katmanda rastgele olarak bazı nöranların değerleri sıfırlanır. Genellikle %20-%50 arasında bir değer seçilir. 

<center><img src="dropout.png"/><\center>
    
    
3.Ağı Küçültmek 
    
Sinir ağlarında kullanılan yöntemlerden biridir. Modelin katman sayısı düşürülerek karmaşıklığı düşürülür.
    
4.Erken durdurma (Early stopping)
    
Erken durdurma resmi bir düzenleme yöntemi değildir ancak aşırı takılmayı etkili bir şekilde sınırlayabilir.
    
 

---------------------------------

### Kaynaklar

#### Websiteleri
- https://tr.wikipedia.org/wiki/Veri
- https://developers.google.com/machine-learning/crash-course
- https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229

#### Kitaplar
- Yapay Örğenme - Ethem Alpaydın
- Python ile Derin Öğrenme - François Chollet

#### Makaleler
- https://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf

#### Kurslar

- https://www.coursera.org/learn/machine-learning
