**Model Selection**

Classification algoritmalarında dataframe train ve test olarak ayrılır.

Train veri seti üzerinden model oluşturulur.

Model selection bir machine learning algoritmasını seçmekten daha çok en iyi parametreyi seçmektir.

Parametreler ikiye ayrılır;

1) **öğrenilen parametreler:** bu parametreleri model kendi öğrendiğinden seçme gibi bir durum yoktur.

2) **seçilen parametreler:** **hyperparameter** denir. En uygun değer denenerek bulunur. Böylelikle model daha iyi hale getirilir. (knn -> k değeri)

Machine Learning algoritmasını nasıl değerlendirileceği de bir selection'dır.

Confusion matrix, accuracy, r^2 score metriklerinden hangisine göre değerlendirme yapılacağının seçilmesi gerekir.

Seçilen model sonucu ortaya çıkan accuracy değerinin de tutarlı olması gerekir.

Mesela seçilen model sonucu bir test datasıyla %89 accuracy değeri elde edilmişken, başka bir test datasıyla %60 accuracy değeri elde edilirse bu durumun çözülmesi gerekir.

Bu durumun çözülmesi için **k-fold cross validation** yöntemi kullanılır.

**overfitting:** modelin train datalarının ezberlemesi ve bu ezberlenen dataların test datalarına uygulanması durumudur.

Eğer data overfitting olmuşsa başka bir test datası geldiğinde düşük bir accuracy değeri elde edecektir.

k-fold cross validation yöntemi ile overfitting durumu önlenir.

k-fold cross validation yönteminde data train ve test olarak ayrılır.

Train datasının bir kısmı training bir kısmı da validation için kullanılır.

Train datası belirlenen k değeri kadar training ve validation olarak ayrılır ve k adımdan oluşur.

Her adımda train datasının farklı bölümü validation için kullanılır ve her adımda bir accuracy değeri elde edilir.

Elde edilen accuracy değerlerinin ortalaması alınarak tek bir accuracy değeri elde edilir.

k değeri 3 olduğunda train datası 3 kez train ve validation olmak üzere ayrılır ve 3 accuracy değeri elde edilir. Bu accuracylerin ortalaması alınarak tek bir accuracy değeri elde edilir.

Bu yöntemde modelin eğitimi train, doğrulaması da validation kısmıyla yapılır.

Model hazırlandıktan sonra test kısmıyla test edilir.



In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

Sklearn kütüphanesinden iris datası kullanılacaktır.

In [None]:
iris = load_iris()

Datada sepal_length, sepal_width, petal_length ve petal_width olmak üzere 4 feature bulunmaktadır.

setosa(0), versicolor(1) ve virginica(2) olmak üzere 3 classtan oluşmaktadır.

In [None]:
x = iris.data
y = iris.target

Knn algoritması kullanılacağından normalization yapılacaktır.

Knn algoritmasında euclidean distance bulunduğundan eğer normalization yapılmazsa bir feature'ın değeri 1000-1500 aralığında ve diğer feature'ın değeri 0.1 arasında olursa değeri yüksek olan feature baskınlık kurar.

Normalization yöntemiyle featurelardaki tüm değerler 0-1 aralığına çekilerek featureların baskınlık kurması önlenir.

In [None]:
#normalization
x = (x - np.min(x)) / (np.max(x) - np.min(x))

In [None]:
#train test split
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3,random_state=42)

Test size 0.3 olarak belirlendiğinden datanın %70'i train %30 test olarak ayrılmıştır.

In [None]:
#knn model
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3) #k değeri

In [None]:
#k fold cross validation
from sklearn.model_selection import cross_val_score
accuracies = cross_val_score (estimator = knn, X = x_train, y = y_train, cv = 10)

**estimator** parametresiyle cross validation yapılırken hangi algoritmanın kullanılacağı belirlenir.

**cv** parametresiyle cross validation'daki k değeri belirlenir.

In [None]:
accuracies

array([0.90909091, 1.        , 1.        , 0.81818182, 0.81818182,
       1.        , 1.        , 1.        , 1.        , 0.9       ])

In [None]:
print("average accuracy: ",np.mean(accuracies))
print("average standard deviation : ",np.std(accuracies))

average accuracy:  0.9445454545454547
average standard deviation :  0.073231208629623


**standard deviation** elde edilen accuracy değerinin yayılımıdır. Bu da ne kadar tutarlı olduğunun bilgisidir.

Average accuracy değeri %94 olduğundan knn algoritmasında kullanılan 3 değerinin iyi bir değer olduğu görülür.

Standart deviation'a bakarak tutarlı olduğu görülür.

Bu durumda artık test datası kullanılabilir.

In [None]:
#knn fit
knn.fit(x_train,y_train)

KNeighborsClassifier()

In [None]:
#accuracy
print("test accuracy: ",knn.score(x_test,y_test.reshape(-1,1)))

test accuracy:  1.0


## **Grid Search Cross Validation**

Knn algoritmasında k değeri 3 olduğunda %97'lik bir doğruluk elde edilmişti.

Grid search ile farklı k değerleri ile knn algoritması denenir ve bu k değerlerine cross validation yapılır.

**Grid Search CV with KNN**

In [None]:
from sklearn.model_selection import GridSearchCV
grid = {"n_neighbors":np.arange(1,50)}  #knn algoritmasında 1'den 50'ye kadar olan k değerlerine validation uygulanacaktır.

In [None]:
#knn model
knn = KNeighborsClassifier()

In [None]:
#grid search CV
knn_cv = GridSearchCV(knn, grid, cv=10) #cross validation'daki k değeri 10 olarak belirlenmiştir.

In [None]:
#Knn model
knn_cv.fit(x_train,y_train)

GridSearchCV(cv=10, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])})

In [None]:
print("tuned hyperparameter K: ",knn_cv.best_params_) #best_params_ methodu ile en iyi k değeri seçilir.
print("tuned parametreye göre en iyi accuracy (best score): ",knn_cv.best_score_) 
#seçilen k değerine göre accuracy'e bakılır.

tuned hyperparameter K:  {'n_neighbors': 11}
tuned parametreye göre en iyi accuracy (best score):  0.9627272727272727


Knn algoritması için k değeri 11 olduğunda %96 accuracy değeri elde edilir.

**Grid Search CV with Logistic Regression**

Logistic Regression binary classification algoritmasıdır.

Datada 3 class bulunmaktadır. 

Logistic regression'da datadaki 2 class kullanılacaktır.

In [None]:
x = x[:100,:]  
y = y[:100]   #her class 50 değerden oluşmaktadır. Bu yüzden 2 class için 100 değer seçilir.

In [None]:
#normalization
x = (x - np.min(x)) / (np.max(x) - np.min(x))

In [None]:
#train test split
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3,random_state=42)

In [None]:
from sklearn.linear_model import LogisticRegression
grid = {"C":np.logspace(-3,3,7),"penalty":["l1","l2"]} 

**C parametresi**, logistic regression regularization parameterdır. 

Eğer C değeri büyükse overfitting (aşırı ezberleme) durumu olur, eğer C çok küçükse underfitting (data'yı öğrenememe) durumu olur.

Bu yüzden optimal C değeri seçilmelidir.

**l1(lasso) ve l2(ridge)** regularization kısmında kullanılan loss functionlardır.

In [None]:
#logistic regression model
logreg = LogisticRegression(random_state = 42,max_iter= 40)

In [None]:
#grid search CV
logreg_cv = GridSearchCV(logreg, grid, cv=10)

In [None]:
#model fit
logreg_cv.fit(x_train,y_train)

GridSearchCV(cv=10, estimator=LogisticRegression(max_iter=40, random_state=42),
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03]),
                         'penalty': ['l1', 'l2']})

In [None]:
print("tuned hyperparameters: (best parameters): ",logreg_cv.best_params_)
print("accuracy: ",logreg_cv.best_score_)

tuned hyperparameters: (best parameters):  {'C': 1.0, 'penalty': 'l2'}
accuracy:  1.0


Bu parametreler kullanılarak data %100 predict edilmiştir.