# Model Seçimi

* Model seçimi, verilen bir dizi aday modelden istatistiksel bir model seçme görevidir.
* En basit durumlarda, önceden var olan bir veri kümesi dikkate akınır.
* Problemin çözümüne en uygun makine öğrenmesi modelinin seçimi ya da bu modelin parametrelerinin seçimi yapılır.

## Çarpraz Doğrulama

* Çarpraz doğrulama, yapılan bir istatistiksel analizin bağımsız bir veri setinde nasıl bir sonuç elde edeceğini sınayan bir model doğrulama tekniğidir.
* Başlıca kullanım alanı bir öngörü sisteminin pratikte hangi doğrulukla çalışacağını kestirmektir.

### K Katlamalı Çarpraz Doğrulama

   * K katlamalı çapraz doğrulamada verilerimizi k farklı alt kümeye böleriz.
   * Verilerimizi eğitmek ve son alt kümeyi test verisi olarak bırakmak için k-1 adet alt kümeyi kullanırız.
   * k adet deney sonucunda ortaya çıkan ortalama hata değeri modelimizin geçerliliğini belirtir.

In [19]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris

In [20]:
iris = load_iris()

x = iris.data # özellikler
y = iris.target # sınıf

In [21]:
# normalizasyon
x = (x-np.min(x))/(np.max(x)-np.min(x))

In [22]:
from sklearn.model_selection import train_test_split

In [23]:
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3,random_state=0)

#### Çarpraz Doğrulama ile Model Eğitimi

* Çarpraz doğrulamada kullanacağımız makine öğrenmesi modelimizi oluşturalım.
* Bu model K-En yakın komşu olsun.

In [6]:
# 3 en yakın komşu
from sklearn.neighbors import KNeighborsClassifier

In [7]:
knn = KNeighborsClassifier(n_neighbors=3) # k = n_neighbors
knn

In [8]:
# 10 fold çapraz doğrulama yapalım
from sklearn.model_selection import cross_val_score

In [9]:
fold_sayisi = 10 # katlama sayısı
dogruluklar = cross_val_score(estimator=knn, X=x_train, y=y_train, cv=fold_sayisi)
print("Ortalama Doğruluk: ", np.mean(dogruluklar))
print("Doğrulukların Standart Sapması: ", np.std(dogruluklar))

Ortalama Doğruluk:  0.9427272727272727
Doğrulukların Standart Sapması:  0.06480103049889721


* Ortalama doğruluk değerimiz %94 çıktı.
* Doğruluk standart sapması ise 0.06. Bu değerin düşük olması modelimizin parametrelerinin yeterince iyi olduğunu gösterir.

### Izgara Araması Çarpraz Doğrulama

* Makine öğrenmesinde hiperparametre, değeri öğrenme sürecini kontrol etmek için kullanılan bir parametredir.
* Örneğin K-En Yakın Komşu algoritmasında kullanılan k değeri bir hiperparametredir. Bu hiperparametrenin seçilmesi gereklidir.
* Izgara araması çarpraz doğrulama modelin başarımını doğrudan etkileyen hiperparametrelerin seçiminde kullanılır.

In [10]:
knn = KNeighborsClassifier(n_neighbors=3)

In [11]:
from sklearn.model_selection import GridSearchCV

In [12]:
grid = {"n_neighbors":np.arange(1,50)}
knn = KNeighborsClassifier()

knn_cv = GridSearchCV(knn, grid, cv=10)
knn_cv.fit(x,y)

In [13]:
print("En iyi k değeri: ", knn_cv.best_params_)
print("En iyi k değerine göre en iyi doğruluk değeri: ", knn_cv.best_score_)

En iyi k değeri:  {'n_neighbors': 13}
En iyi k değerine göre en iyi doğruluk değeri:  0.9800000000000001


* Şimdi de lojistik regresyon için en iyi parametreleri bulalım.

In [15]:
from sklearn.linear_model import LogisticRegression

In [24]:
grid = {"C":np.logspace(-3,3,7), "penalty":["l1","l2"]}
lr = LogisticRegression()
lr_cv = GridSearchCV(lr, grid, cv=10)
lr.fit(x,y)

print("En iyi hiper parametreler: ", lr_cv.best_params_)
print("En iyi hiper parametrelere göre en iyi doğruluk değeri: ", lr_cv.best_score_)

AttributeError: 'GridSearchCV' object has no attribute 'best_params_'