# Model Selection 

Machine learning model selection, bir makine öğrenimi uygulaması için en uygun modeli seçme sürecidir. Makine öğrenimi uygulamaları, birçok farklı model ve algoritma türü kullanarak verileri analiz eder ve sonuçları tahmin etmek için kullanırlar. Model seçimi, birçok farklı faktörü dikkate alır ve en uygun modeli seçmek için bir dizi kriter kullanır.

Model seçimi, bir makine öğrenimi uygulamasının doğruluğunu ve performansını önemli ölçüde etkileyebilir. Doğru model seçilmezse, verilerin yeterince iyi tahmin edilemeyebilir veya tahminler çok fazla hata yapabilir. Ayrıca, yanlış model seçimi, verilerin aşırı uydurulması veya aşırı basit bir model kullanılması gibi sorunlara da neden olabilir.

Model seçimi süreci, bir dizi modelin oluşturulmasını, bu modellerin eğitilmesini ve performanslarının ölçülmesini içerir. Model seçimi kriterleri, çapraz doğrulama, akıllı parametre ayarı ve bilgi kriterleri gibi teknikleri kullanarak belirlenir. Bu kriterler, modelin doğruluğunu, karmaşıklığını ve genelleştirme yeteneğini dikkate alır ve en uygun modeli seçmek için kullanılır.

###### Model Selection Parametreler:

1. Öğrenilen Parameters
2. Seçilen Parameters (HyperParamters) 


###### K Fold Cross Validation

Avoid Overfitting

##### **Model Selection** aslen en iyi parametereleri seçmek anlamına gelmektedir. 

In [32]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [4]:
iris= load_iris()

In [5]:
x= iris.data
y= iris.target

###### normalization

In [6]:
x= (x-np.min(x))/ (np.max(x)-np.min(x))

In [7]:
from sklearn.model_selection import train_test_split

In [10]:
X_train, x_test, y_train, y_test= train_test_split(x,y, test_size=0.3, random_state=46)

##### KNN Model 

In [11]:
from sklearn.neighbors import KNeighborsClassifier

In [12]:
# Knn Modulunu tanıma
knn= KNeighborsClassifier(n_neighbors=3) #K değerimiz 3


###### K Fold Cross Validation

In [17]:
# K = 10
from sklearn.model_selection import cross_val_score
accuracies = cross_val_score(estimator= knn, X= X_train, y= y_train, cv=10) #Estimator kullanılacak algoritma belritmek için kullanılır
# x değerine x_train y değerine y_train ve cv = cros Validation'da k= değeri için 10


In [16]:
print("Average Accuracy: ", np.mean(accuracies))

Average Accuracy:  0.9809090909090911


In [18]:
print("Average STD: ", np.std(accuracies))

Average STD:  0.03823589244511471


# Test

Şimdi modelimizi eğitirken planladığımız gibi önce test verisetini ayırdık. Ardından model eğitme kısımında validation değerlerimizi sanki birer test veri setiymiş gibi ayırıp her adımın sonunda bu değerleri validation ile doğrulama yaparak eğittik ki başarımızın artması ve overfitting'i engellemek istediğimiz için. Artık gerçek test aşamasına geçebilirz.

In [21]:
knn.fit(X_train, y_train)
print("Test Accuarcy: ",knn.score(x_test, y_test) )

Test Accuarcy:  0.9111111111111111


# Grid Search with KNN

Grid Search yapma sebebi KNN içn seçilen K değerin en iyi K değerinin olup olmadığını anlamak aynı zamanda da her bir K değerini denerken K Cross Validation tekniğini uygulamalıyız ki en iyi çözümü bulabilmek için.

In [22]:
from sklearn.model_selection import GridSearchCV

In [23]:
grid= {"n_neighbors": np.arange(1,50)}
knn_cv= KNeighborsClassifier()

In [24]:
knn_cv= GridSearchCV(knn, grid, cv= 10)
knn_cv.fit(x,y)

In [25]:
print(" En iyi hyperparamter: ", knn_cv.best_params_)
print( "En iyi accuracy değeri ",knn_cv.best_score_)

 En iyi hyperparamter:  {'n_neighbors': 13}
En iyi accuracy değeri  0.9800000000000001


# Grid Search Validation with Logistic Regression

Logistic Regression binary classifier olduğu için X datasetini yalnız iki sınıf içerecek şekilde sınıflandırıyoruz.

In [26]:
x= x[:100, :]
y= y[:100]

In [27]:
from sklearn.linear_model import LogisticRegression


In [28]:
grid= {"C":np.logspace(-3,3,7),"penalty": ["l1","l2"]} 

In [29]:
logres= LogisticRegression()

In [30]:
logres_cv= GridSearchCV(logres, grid, cv=10)

In [33]:
logres_cv.fit(x,y)

In [34]:
print("En iyi hyperparametreler ", logres_cv.best_params_)
print("Accucary: ",logres_cv.best_score_)

En iyi hyperparametreler  {'C': 1.0, 'penalty': 'l2'}
Accucary:  1.0
