# Modellerin Değerlendirilmesi ve Seçimi

- Modellerin başarısı, parametrelere bağlıdır.
- Makine öğrenmesi parametreleri optimize etmez.
- Model seçiminden önce dikkat edilmesi gereken ilk nokta, model değerlendirilmesidir (evaluation).
- Şimdiye kadar test kümesindeki başarıyı ölçtük.
- k-fold Cross Validation
- Grid Search

## Hangi Modeli Seçeceğim?

- Öncelikle modelin tipinin belirlenmesi
    - Bağımlı değişken var mı? (Classification-Regression/Clustering)
        - Bağımlı değişken kategorik mi sürekli bir sayı mı? (Classification/Regression)
    - Doğrusal/doğrusal olmayan.


***

## K-Fold Cross Validation:

<div style="text-align:center;">
    <img src="k-fold.png" width="500"/>
</div>

In [1]:
#1. kutuphaneler
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# veri kümesi
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

# eğitim ve test kümelerinin bölünmesi
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

# Ölçekleme
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# SVM
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, y_train)

# Tahminler
y_pred = classifier.predict(X_test)

#  Confusion Matrix
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

array([[64,  4],
       [ 3, 29]], dtype=int64)

In [4]:
#k-katlamali capraz dogrulama 
from sklearn.model_selection import cross_val_score
''' 
1. estimator : classifier (bizim durum)
2. X
3. Y
4. cv : kaç katlamalı

'''
basari = cross_val_score(estimator = classifier, X=X_train, y=y_train , cv = 4)

print(basari.mean())
print(basari.std())

0.8999999999999999
0.03590109871423001


***

## Grid Search Cross Validation:

In [5]:
from sklearn.model_selection import GridSearchCV
p = [{'C':[1,2,3,4,5], 'kernel':['linear','rbf']},
    {'C':[1,10,100], 'kernel':['rbf']}]

'''
GSCV parametreleri
estimator : sınıflandırma algoritması (neyi optimize etmek istediğimiz)
param_grid : parametreler/ denenecekler
scoring: neye göre skorlanacak : örn : accuracy
cv : kaç katlamalı olacağı
n_jobs : aynı anda çalışacak iş
'''
gs = GridSearchCV(estimator= classifier, #SVM algoritması
                  param_grid = p,
                  scoring =  'accuracy',
                  cv = 10,
                  n_jobs = -1)

grid_search = gs.fit(X_train,y_train)
eniyisonuc = grid_search.best_score_
eniyiparametreler = grid_search.best_params_

print(eniyisonuc)
print(eniyiparametreler)

0.9066666666666666
{'C': 4, 'kernel': 'rbf'}
