# Makine Ögrenmesine Giris

## Makine ogrenmesi nedir?

Bilgisayarlarin insanlara benzer sekilde ogrenmesini saglamak amaciyla cesitli algoritma ve tekniklerin gelistirilmesi ici calisilan bilimsel bir calisma ortamidir. Tümden gelim yontemiyle konunun temellerini anlamaya calisalim. Bir insan olarak bir ogrenme surecini ele almak istedigimizi dusunelim ve soyle bir sorunun oldugunu varsayalim. Ozellikleri verilen bir evin fiyatini tahmin edebilirmisiniz?

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.DataFrame({'metrekare': [70, 73, 75, 80, 80, 80, 82, 83, 85, 90, 92, 94],
                   'fiyat': [300, 310, 310, 330, 340, 350, 350, 400, 420, 450, 450, 470]})
df

Yukaridaki veri seti, bir evin metrekaresi degistikce evin fiyatindaki degisikligi gostermektedir. Bu veri seti dikkate alindiginda; 
1. 80 metrekare bir evin fiyati ne olabilir?
* Yukaridaki veri setine göre 80 metrekare bir evin fiyati 330, 340 ve 350 birim olarak degismektedir. Dolayisiyla bu üç degerin ortalamasi alindiginda evin fiyati 340 birim olarak hesaplanabilir.
2. 84 metrekare bir evin fiyati ne olabilir?
* Yukaridaki veri setinde 83 ve 85 metrakere olan evlerin fiyatlari verilmistir. Dolayisiyla bu iki metrekareye ait fiyatlar arasinda bir interpolasyon yapildiginda evin tahmini fiyati 410 olabilir. Ancak burada daha farkli ev özellikleri devreye girdiginde evine fiyatinin da degisecegi goz onune alinmalidir.
3. 96 metrekare bir evin fiyati ne olabilir?
* Yukaridaki veri seti incelendiginde 92 metrekare olan bir evin fiyati 450 birimken 94 metrekare olan bir evin fiyati da 470 birim olmustur. Buradan yola cikarak bir evin fiyati 2 metrekare arttiginda 20 birim artmis olup 96 metrekare olan bir evin fiyati da 20 birim artarak 490 birim olabilir.

Ancak yukarida da bahsettigim gibi bu veri seti sadece bir degiskene karsilik degisen ev fiyatlarini belirmektedir. Ancak birden fazla degisken oldugunda ise durum tamamen degismekte ve yukarida yapmis oldugumuz tahminlemeleri kolaylikla yapamamakta ve benter cikarimlar yapamazdik. Burada yapilacak islem, veri setindeki iliskiyi ve iliskinin yapisini ogrenip bu ogrenilen yapiya gore tahminlerde bulunma isini algoritmalar ile yapmaktir.

Yukardaki veri setinde ilgilenilen hedef-bagimli degisken (fiyat) sayisal (numeric) oldugundan dolayi metrekare ile fiyat arasindaki iliski bir 'regresyon' problemidir. Metrekare degisimine gore fiyatin degisimi asagidaki gibi gorsellestirilebilir.

In [None]:
sns.regplot(x='metrekare', y='fiyat', data=df)
plt.title('Metrekare ve fiyat arasindaki iliski')
plt.xlabel('Fiyat')
plt.ylabel('Metrekare')
plt.show()

Yukaridaki grafige göre bu iki degisken arasindaki iliski dogrusal bir iliski olup basit bir dogrusal regresyon yardimiyla bu iliski modellenebilir. Bu arada yukarida da bahsettigim gibi bagimli degiskeni sayisal olan problemlere 'regresyon problemleri' denir. Bu regresyon probleminde goruluyor ki metrekare arttikca fiyat artmaktadir. Regresyonda gorulen cizgi ise tahmin fonksiyonudur, yani tahmin edilen degerlerdir. Bu cizginin denklemi 'y = b + wi' seklindedir. Bu denklemdeki 'b' ifadesi 'sabiti' ve 'w' ifadesi ise 'egimi' ifade etmektedir. Makine ogrenmesi, sonucunda ogrenm olan ve ogrenmeye iliskin bir bilgi tasiyan, ogrenilmis sey diyebilecegimiz sabit ifade (b) ve buradaki agirliktir (w).

In [None]:
titanic = sns.load_dataset('titanic')
titanic[['survived', 'pclass', 'sex', 'age']].head(10)

Yukaridaki veri setine gore, ozellikleri verilen bir kisinin hayatta kalip kalmayacagini tahmin edebilir misiniz? Titanic veri setindeki bagimli degisken kategorik bir degisken oldugundan, yani 1 ve 0'lardan olustugundan dolayi, bu bir 'siniflandirma problemidir'. Titanic veri setinde 0 hayatta degil, 1 ise hayatta anlamina gelmektedir. 

* 45 yasinda ve 3. sinif bir kadin yolcu hayatta kalabilir mi?

Yukarida verilen veri seti incelendiginde 45 yasina yakin tüm kadin yolcular ile birlikte hemen her yas grubundaki kadin yolcularin hayatta kaldigi gorulmektedir. Dolayisiyla 45 yasinda olup 3. sinif bir yolculuk yapan bir kadin yolcu ile ilgili hayatta kalabilir yorumu yapilabilir.

* 15 yasinda ve 1. sinif olan bir erkek yolcu hayatta kalabilir mi?

Veri setine gore erkek yolcularin hicbiri hayatta kalmamistir. Dolayisiyle bu verilenlere gore 15 yasinda olup 1. sinif yolculuk yapan bir erkek yolcunun hayatta kalmadigi yorumu yapilabilir. 

Ote yandan, daha dogru yorum yapabilmek icin veri setinin tamamina bakmak gerekmektedir. Cunku veri seti 891 gozlemden olusmakta ve burada inceledigimiz kisim ise sadece 10 gozlemden olusmaktadir. Burada aslinda anlatilmak istenen, bir makinenin insanlara benzer sekilde nasil ogrendigini ve cikarimlarda bulundugunu ortaya koymaktir. Dolayisiyla makine ogrenmesi de bu tur sorularin cevaplarini benzer sekilde bulmaktadir. Bu, insan olarak yapilan bu hareketin bilgisayar ve algoritmalar ile nasil yapildigini ortaya koymaktadir. Makine ogrenmesi, bircok teknik-terminolojik bilgiye bogulmadan hizli bir sekilde yanit vermedir. Bilgisayarlarin insanlara benzer sekilde ogrenmesini saglamak amaciyla calismalarin yapildigi bir alandir.

## Degisken türleri

Uzerinde calisilan problemlerde degiskenlerin tiplerini tanimak onemlidir. Oncelikle degiskenlerin tipleri acisindan 'sayisal degiskenler' ve 'kategorik degiskenler' incelenmektedir. 

<img src='https://i.stack.imgur.com/3QemG.gif' width=500px alt='variable'>

'Sayisal degiskenler'; yas, metrekare ve fiyat gibi degiskenlerdir. 'Kesikli' ve 'sürekli' yani ondalikli olabilir. Yas degiskeni sayisal bir degisken ama 3.5 veya 10.5 gibi yas degerleri ile ilgilenilmez. Cünkü yasin küsürati olmamaktadir. Bununla beraber, 'paket sayisi' gibi bir degiskende de küsürat olmadigindan kesiklidir. Ancak 'boy' degisekeni de sayisaldir ve ondaliklidir, yani süreklidir.

'Kategorik degiskenlerde' kadin-erkek, sag-ölü, saglikli-hasta, futbol takimlari gibi yani bir sinifi-kategoriyi ifade eden degiskenlerdir. Kategorik degiskenler, kendi icinde 'nominal' ve 'ordinal' olmak üzere ikiye ayrilmaktadir. 'Cinsiyet' degiskeni, nominaldir, yani siniflarin arasinda bir farklilik yoktur. Bununla beraber, futbol takimlarinin siniflari arasinda da bir farklilik olmadigindan dolayi futbol takimlari ile ilgili degisken nominal bir degiskendir. Ote yandan 'egitim durumu' (ilk okul, orta okul, lise, üniversite, master, doktora) gibi bir kategorik degisken ise ordinaldir ve bu siniflarinin arasinda bir farkliliginin oldugunu gostermektedir.

'Bagimli degisken', ilgilenilen problemdeki hedef degiskenen denmektedir ve 'target, dependent, output, response' seklinde de adlandirilmaktadir. Hastalik tahmini ile ilgilenildiginde hasta-saglikli olma durumunu ifade eden degisken bagimli degiskendir. Arac veya evlerin fiyatlari da bagimli degiskene ornek olarak verilebilir.

'Bagimsiz degisken', 'feature, independent, input, column, predictor, explonatory' olarak da adlandirilmakta olup bagimli degiskeni olusturdugu varsayilan bir degiskendir. Ornegin 'Advertising' veri setindeki 'TV, radio, newspaper' gibi degiskenler bagimsiz degisken, 'sales' ise bagimli yani hedef degiskendir ve bir regresyon problemidir. Ayrica 'Titanic' veri setinin begimli degiskeni olan 'survived' ise sayisal olarak ifade edilmis bir kategorik degiskendir ve bir siniflandirma problemidir. Siniflandirma problemlerinde algoritmalar 0-1 seklinde sayisal temsiller beklemektedir.

## Ogrenme türleri

Makine ogrenmesi, temelinde üc farkli ogrenme ile ele alinmakta ve asagidaki gibidir. Pratikte üzerinde en fazla calisilan alan 'denetimli ogrnenme' alanidir. 

<img src='https://1.bp.blogspot.com/-eQAMKkzUJKo/XplTIA2oLcI/AAAAAAAAEQc/6_Qgfsh8CXYOkxal5c0EeB_xy4shk3rYACNcBGAsYHQ/s1600/typesofmachinelearning.jpg' width=500px alt='type_of_machine_learning'>

### Denetimli ogrenme (supervised learning)

Veri setinde labellar varsa, yani bir bagimli degisken varsa bu durumda veri 'denetimli ogrenme' problemine sahiptir. Burada bagimli ve bagimsiz degisken arasindaki iliski ogrenilmektedir. Bagimsiz degiskenlerin denetiminde bagimli degisken olustugundan denetimli ogrenmedir. 

### Denetimsiz ogrenme (unsupervised learning)

Eger bir veri setinde bagimli degisken yoksa bu bir denetimsiz ogrenme problemidir. Denetimsiz ogrenmede kümeleme (clustering) olusturulmaktadir.

### Pekistirmeli ogrenme (reinforcement learning)

"Pekiştirmeli öğrenme", öğrenme sürecinde tekrarlamaya dayalı bir öğrenme yöntemidir. Bu yöntem, öğrenilen bir beceriyi veya bilgiyi sık sık tekrar ederek, beynin bu bilgiyi hatırlama ve yeniden kullanma yeteneğini geliştirmeyi hedefler. Pekistirmeli ogrenme soyle bir ornek ile aciklanabilir. Bir robotun kapiyi kullanarak bos bir odadan cikma gorevi olsun. Yapabilecegi olasi adimlar: ziplamak, one, arkaya, saga ve sola gitmek ve el-kol kaldirmak gibi eylemlerdir. Robot deneme yanilma yontemiyle odadan cikmaya calissin ve basarisiz oldugu her bir girisim de cezalandirilsin. Bu sekilde deneme yanilma yontemiyle odadan kaypiyi kullanarak cikmasi saglanacaktir. Tipki bir cocugun sobaya dokunup yandigini ve sonrasinda yakiyor oldugunu ogrenmesi gibi. Sürücüsüz arabalar da pekistirmeli ogrenmeye ornektir. 

## Problem türleri

Problem türleri, ilgilenilen makine ogrenmesi problemi regresyon problemi mi (bagimli degisken sayisal mi?) yoksa siniflandirma problemi mi (bagimli degisken kategorik mi?) ile ilgili bir konudur. Eger veri setinin bagimli degiskeni sayisal bir degisken ise bu durumda bir regresyon problemi ile ilgilenilmektedir.

<img src='https://static.packt-cdn.com/products/9781788398435/graphics/ef351651-f2ed-4773-a868-cbc82ab8babe.png' width=500px alt='problem_types'>

Eger veri setinin bagimli degiskeni kategorik bir degisken ise bu durumda da bir siniflandirma problemi ile calisilmaktadir. Siniflandirma problemlerinde bagimli degisken 0-1 seklinde sayisal degerler sahip olmalidir.

## Model basarisini degerlendirme yontemleri

Tahminlerin ne kadar basarili oldugu ile ilgili sorulara yanit aranmaktadir. Bu amacla bagimli degiskenin gercek degerleri ile tahmine edilen degerleri kullanilmaktadir. Gercek bagimli degisken ile tahmin edilen bagimli degiskenin degerleri arasindaki farka 'artik, hata veya error' denmektedir. Modeller tahminlerde bulundugunda belirli sapmalar beklenmektedir.

### Regresyon modellerinde basari degerlendirme
#### Ortalama kare hatasi (mean squared error (MSE))

Ortalama kare hatasi cok iyi bilinmelidir ve makine ogrenmesi temelinde onemli bir yere sahiptir. Bununla beraber bir basari degerlendirme olcusudur. Optimizasyon yontemleri kullanildidinda daha iyi model kurmak uzere optimize edilmeye calisilan bir fonksiyondur. Bu fonksiyon yanitin gercek degerleri ile tahmin edilen degerleri arasindaki farklari degerlendirme imkani saglar. MSE'nin değeri, ölçülen değerlerin varyansına bağlı olarak değişebilir ve bu nedenle tek başına bir modelin kalitesini yeterince ölçmek için yeterli olmayabilir. Bu nedenle, RMSE gibi diğer metriklerle birlikte kullanılarak modelin performansı daha iyi değerlendirilebilir.

<img src='https://miro.medium.com/v2/resize:fit:552/1*aFBAjR7kzWirbqORnYa43Q.png' width=500px alt='mse'>

Burada; 

yi = yanitin gercek degeri<br>
yî = yanitin tahmin edilen degeri<br>
n = gozlem sayisi

#### Kök ortalam kare hatasi (root mean sqared error (RMSE))
Kök Ortalama Kare Hatası (Root Mean Square Error - RMSE), bir tahmin modelinin gerçek değerlerden ne kadar uzak olduğunu ölçen bir istatistiksel metriktir. RMSE, modelin tahminlerinin gerçek değerlerden ne kadar sapma gösterdiğini ölçer ve bu nedenle modelin kalitesini değerlendirmek için sıklıkla kullanılır.

RMSE, gerçek değerler ile tahmin edilen değerler arasındaki farkların karelerinin ortalamasının karekökü olarak hesaplanır. Bu, tahmin hatalarının büyüklüğünü aynı birimlerde ifade ederek, modelin performansını karşılaştırmak için kullanışlı bir ölçüttür.

RMSE değeri, 0 ile sonsuz arasında bir değer alabilir. Değer ne kadar küçükse, tahmin modelinin gerçek değerlere o kadar yakın olduğu anlamına gelir. Ancak, RMSE'nin değeri, ölçülen değerlerin varyansına bağlı olarak değişebilir ve bu nedenle tek başına bir modelin kalitesini yeterince ölçmek için yeterli olmayabilir.

<img src='https://programmerah.com/wp-content/uploads/2020/11/20190714113817886.png' width=500px alt='rmse'>

#### Mutlak ortalam hata (mean absolute error (MAE))
MAE, gerçek değerler ile tahmin edilen değerler arasındaki farkların mutlak değerlerinin ortalaması olarak hesaplanır. Bu, tahmin hatalarının büyüklüğünü aynı birimlerde ifade ederek, modelin performansını karşılaştırmak için kullanışlı bir ölçüttür. MAE, RMSE'den farklı olarak kare alma işlemi yapmaz, bu nedenle daha küçük hatalara daha duyarlıdır. Ancak, MAE'nin değeri, ölçülen değerlerin varyansına bağlı olarak değişebilir ve bu nedenle tek başına bir modelin kalitesini yeterince ölçmek için yeterli olmayabilir. Bu nedenle, diğer metriklerle birlikte kullanılarak modelin performansı daha iyi değerlendirilebilir.

<img src='https://miro.medium.com/v2/resize:fit:1040/1*tu6FSDz_FhQbR3UHQIaZNg.png' width=500px alt='mae'>

### Siniflandirma modellerinde basari degerlendirme
Sınıflandırma modellerinde başarı değerlendirmesi için farklı metrikler kullanılabilir. İşte sınıflandırma modellerinde kullanılan bazı önemli başarı metrikleri:

* Doğruluk (Accuracy): En bilinen basari degerldirme metriklerinden biridir. Doğru tahmin edilen gözlemlerin toplam gözlem sayısına oranıdır. Basit bir örnek vermek gerekirse, %80 doğruluk oranı, 100 gözlemde 80'inin doğru tahmin edildiği anlamına gelir.

* Hassasiyet (Precision): Pozitif olarak tahmin edilen gözlemlerin gerçekten pozitif olan gözlemlere oranıdır. Yanlış pozitiflerin sayısını azaltmayı hedefler. Hassasiyet, gerçek pozitiflerin yanlış pozitiflerden ne kadar ayrıldığını ölçer.

* Duyarlılık (Recall): Gerçek pozitiflerin tespit edilme oranıdır. Yanlış negatiflerin sayısını azaltmayı hedefler. Duyarlılık, gerçek pozitifleri kaçırmayı ne kadar azalttığını ölçer.

* F1-Skoru (F1-Score): Hassasiyet ve duyarlılık arasında bir denge oluşturur. F1-Skoru, hassasiyet ve duyarlılık arasındaki harmonik ortalama olarak hesaplanır.

* Logaritmik Kayıp (Log Loss): Sınıflandırma modellerinde kullanılan bir diğer başarı metriği olan Logaritmik Kayıp, gerçek ve tahmin edilen sınıflar arasındaki uzaklığı ölçer ve doğru olasılık tahmini yapmaya çalışır.

Bu başarı metrikleri, modelin performansını ölçmek için kullanılır. Ancak, hangi metriğin kullanılacağı, veri setine ve soruna bağlı olarak değişebilir. Örneğin, dengesiz sınıflandırma problemlerinde, doğruluk (accuracy) yerine hassasiyet (precision) veya duyarlılık (recall) kullanılabilir.

## Model dogrulama yontemleri

Makine ogrenmesinde elde edilen hatalari yani modellerin basarisini daha dogru degerlendirme ve dogrulamaya calisma cabasidir.

### Hold-Out Yontemi (Sinama Seti Yaklasimi)
Daha once makine ogrenmesi yontemleri, kullanildiklari veri seti uzerinde basari acisidan degerlendirilirdi. Yani bir modelin basarisi, o modeli egitmek icin kullanilan veri seti ile degerlendirilirdi.

<img src='https://vitalflux.com/wp-content/uploads/2020/12/Hold-out-method-for-model-evaluation.png' width=500px alt='holdout'>

Dolayisiyla bir veri seti uzerinde hem bir model kurulurdu hem de modelin basarisi degerlendirilirdi. Bunun yerine baska yontemler onerilmis olup daha once yapilan uygulamalarda bir modelin kuruldugu veride test edilmesi, yani modelin tanidigi veril ile test etmeye calisilmaktadir. Bu durumda model veriyi tanidigindan dolayi hatalari yanlis degerlendirme veya asiri ogrenme gibi problemlerle karsilasilmaktadir. Modeli, orjinal veri setini ikiye bolerek 'egitim seti' olarak adlandirilan bit bolumde egitip 'test seti' olarak adlandirilan diger bolumde test etmek gerekmektedir. Bu yontem, 'Hold-Out Yontemi' olarak adlandirilmaktadir.

### K-Katli Capraz Dogrulama (K-Fold Cross Validation)
Diyelim ki orjinal veri setinde 100 gözlen var ve bu iki sinifli (0 ve 1) bir siniflandirma problemi olsun. Veri setini %80 egitim seti ve %20 test seti olmak uzere iki parcaya böldügumuzu dusunelim. Burada bolme islemi rastgele gerceklestirilmektedir. Bölme islemi sonrasinda diyelim ki bolme isleminin %20'lik kismindaki tüm bagimli degisken birimleri 1 olsun veya bagimsiz degisken degerleri, verinin cok genel olmayan bir yapisini temsil ediyor olsun. Bu durumda %20'lik setten elde edilecek test seti hatasi yaniltici olabilir. 

Makine ogrenmesi dunyasinda ortam bulaniktir. Yani tek bir dogru, yaklasim ve yorum yoktur. Gözlem sayisi az oldugunda yukarida, yukarida bahsedilen problem, Hold-Out yontemi kullanildiginda ortaya cikmaktadir. Ancak gözlem sayisi cok fazla oldugunda, bu durumda Hold-Out yontemini kullanmak problem olusturmayabilir. Dolayisiyla K-katli capraz dogrulama teknigi her zaman gecerli degildir. Veri seti zenginse Hold-Out metodu kullanilabilir.

<img src='https://www.researchgate.net/profile/Johar-Ashfaque-Maat/publication/332370436/figure/fig1/AS:746775958806528@1555056671117/Diagram-of-k-fold-cross-validation-with-k-10-Image-from-Karl-Rosaen-Log.ppm' width=500px alt='holdout'>

K-katli capraz dogrulama yontemi iki sekilde kullanilabilir:

* 1. yol: Orjinal veri seti ornegin 5 parcaya bolunur ve 4'u ile model kurulup 1'i ile test edilir. Baska bir 4'u ile model kurulup 1'i ile test edilir. Bu sekilde hatalarin ve basarilarin ortalamasi alinaral cross validation yani capraz dogrulama elde edilir. 
* 2. yol: Orjinal veri seti once egitim seti ve test seti olmak uzere ikiye ayrilir ve egitim seti uzerinde capraz dogrulama islemi uygulanir. Egitim seti 5'e bolunur ve 4'u ile model kurulur ve 1'i ile test etme islemi gerceklestirilir. Benzer sekilde baska bir 4'u ile model kurulup 1'i ile test edilir ve bu sekilde bir capraz dogrulama islemi egitim seti uzerinde gerceklestirilir. Burada gerekli hiperparametre optimizasyonu, degisken mühendislikleri ve model ayarlamalari gerceklestirilir ve en son modelin hic gormedigi test seti verisine tekrar gidilir.

Veri seti bol ise, veri seti bastan egitim seti ve test seti olmak uzere ikiye bolunur ve capraz dogrulama islemi egitim seti uzerinde butun islemler bittikten sonra en son test setinin uzerinde modeli test etme seklinde kullanilabilir. Kaggle uzerinde bircok veri seti mevcuttur. Sirketler yarisma actiklarinda egitim seti verilir ve capraz dogrulama yapilmasi istenir. Test seti ise sirkettedir ve bu yaygin bir kullanimdir. Ote yandan, tüm verinin capraz dogrulamasi, genellikle gozlem sayisi az oldugunda tercih edilmektedir.

## Yanlilik-Varyans Degis Tokusu

Bir model gelistirdigimizi ve bu model neticesinde bazi hata metriklerine eristigimizi dusunelim. Bir cok makine ogrenmesi yontemi var ve bunlardan herhangin bir tanesini kullanip neticesinde basari degerlendirme ile ilgili bir degerlendirme yaptigimizi varsayalim. Uygulamali makine ogrenmesi kapsaminda karsilasilan en ciddi problemlerden biri 'asiri ogrenme (overfitting)' problemidir.

### Asiri ogrenme (overfitting) (yüksek varyans)
Asiri ogrenme problemi, modelin veriyi ogrenmesidir. Ancak bu istenilen bir sey degildir. Istenilen sey, modelin veri icerisindeki yapiyi-örüntüyü ogrenmesidir. Model kurmak, bagimli ve bagimsiz degisken arasindaki iliskiyi, iliskinin ozutunu cikarmak, bu iliskiyi ogrrenmek demektir. Bir baska deyisle asiri ogrenme, modelin veriyi ezberlemesidir. Asir ogrenmede egitim setini cok iyi ogrenen model, test setinde ogrendiginden farkli gozlemler geleceginden dolayi modelin tahminleri basarili olmayacaktir. 

### Az ogrenme (underfitting) (yüksek yanlilik-düsük varyans)
Az ogrenme problemi, modelin veri icerisindeki yapiyi-oruntuyu ogrenmemesi problemidir. Burada model, genellenebilirlik kabiliyeti kazanmamistir.

### Dogru model (düsük yanlilik, düsük varyans)
Aranilan model, dogru modeldir. Dogru modelin temsili de veri setindeki iliskinin, örüntünün, yapinin temsil edilmesidir. Veri setinin temsil edilmesi, veri setinin ezberlenilmesi degildir.

<img src='https://cdn.analystprep.com/study-notes/wp-content/uploads/2021/03/06173923/Img_13-1536x771.jpg' width=500px alt='overfitting_underfitting'>

### Asiri ogrenmenin oldugu nasil anlasilir?
Kritik bir sorundur ve pratikte yakalanmasi bir is olan bir sorundur. Asiri ogrenme sorunu, egitim seti ve test setinin model karmasikligi ve tahmin hatasi cercevesinde birlikte degerlendirilmesiyle tespit edilebilir. Egitim setindeki ve test setindeki hatalarin birbirinden ayrilmaya basladigi-catallanmaya basladigi nokta (optimum nokta) itibariyle asiri ogrenme baslamistir denir. Dolayisiyla, asiri ogrenmenin basladigi noktayi yakalayabiliyorsak yukaridaki soruya da yanit verebiliyoruz demektir. Asiri ogrenmenin tespit edildigi noktada, model karmasikligini (model complexity), egitim süresini, iterasyon süresini vb durdurulursa, bu durumda asiri ogrenme probleminin onune gecilmis olunur.

<img src='https://vitalflux.com/wp-content/uploads/2020/12/overfitting-and-underfitting-wrt-model-error-vs-complexity-1024x590.png' width=500px alt='model_complexity'>

### Model karmasikligi nedir?
Model karmasikligi, dogrusal modellere gore farkli, agaca dayali modellere gore farkli ve sinir aglarina gore farkli olmaktadir. Ornegin, dogrusal yontemlerde modele üstel terimlerin eklenmesiyle model hassaslastirilmakta, yan modelin daha detayli tahminler yapmasina neden olunmaktadir. Dogrusal bir regresyon probleminde (y=b+wi) x^2 ve x^3 eklenirse, bu dogrusal yontemler icin model karmasikligidir.

Modelin karmasikligi, modelin hassaslastirilmasi, daha detayli tahminler yapabilmesi icin ozelliklerinin kuvvetlendirilmesi cabasidir. Agac yontemlerinde ise dallanma sayisi modeli karmasiklasirmaktadir. Buradan karmasikligin iyi bir sey olmadigi anlasilmamalidir. Aksine, karmasiklik modelin dogru tahmin gücünü artirmaktadir. Nitekim yukaridaki grafikte, yani model karmasikligi-tahmin hatasinin gosterildigi grafikte, bir süreye kadar tahmin hatalari, model karmasikliginin artmasiyla azalmaktadir. Ancak bir süre sonra (optimum noktadan sonra) model egitim setini cok iyi ogrendiginden dolayi modelin karmasikligi daha fazla artirilmamalidir. Ornegin agac modellerinde dallanma sayisi bir seviyeden sonra artirilmamalidir. Bir diger ornek olarak da su verilebilir. Optimizasyon yontemlerine dayali agac yontemleri vardir. Bunlar, gradient descent algoritmasi optimize edilerek olusturulan agaclardir. Bu yontemlerden birisi olan LigtGBM de iterasyon süresi model karmasikligina neden olmaktadir. Yapay sinir aglarinda ise, katman sayisi, hücre sayisi, agin boyutu, iterasyon sayisi ve veri boyutu artirildiginda veya ogrenme orani gibi bazi sinir agi mimarilerindeki diger bazi ayar parametreleri gibi parametrelerde ayarlamalar yapildiginda ve opsiyonlar artirildiginda bir süreye kadar (optimum nokta) egitim setinde hata düsmeye devam edecektir (optimum noktadan sonra bile), ancak bundan sonraki asamada ise test setinde hata artacaktir.

### Asiri ogrenme (overfitting) problemi nasil cozulur?
* Veri setinin boyutu artirilabilir.
* Ozellik secimi (feature selection) yaplabilir.
* Sonunda egitim seti ve test seti arasindaki makasin acilmaya basladigi nokta optimum nokta olarak secilir. Bu noktada duruldugunda asiri ogrenmenin onune gecilir. 

## Thank you for evaluating my notebook! If you like this, please upvote!