# Grid Search

### Parameter vs Hyperparameter

**Parameter:**

* Model parametreleri olarak da bilinir
* Veriden öğrenilir
* Genelde manuel set edilmez
* Örnekler:
    * Lineer Regresyon'da Ağırlıklar: $\beta_0$ ve $\beta_1$
    * Yapay Sinir Ağlarındaki Ağırlıklar: $w$ 

**Hyperparameter:**

* Dış parametreler olarak da bilinir
* Veriden öğrenilmez
* Manuel set edilir
* Örnekler:
    * KNN'deki K değeri
    * Regularizasyon katsayısı: C
    * SGD'deki Learning Rate ($\alpha$)

**Soru:**

En iyi hayperparameter değerlerini nasıl bulacağız?

(Hyperparameter Tuning)

**Cevap:**

Grid Search, Random Search ve Cross Validation ile.

### Grid Search

* Grid Serach bütün parametre kombinasyonları ile tahminler yapar.
* GridSearchCV (Grid Search Cross Validation) 'fit' ve 'score' metodlarını otomatik uygular.
* Eldeki parametre kombinasyonlarından (parametre grid'i denir) en iyisi seçilir.
* Grid Search tüm olası parametre kombinasyonlarını deneyeceği için pahalı bir yöntemdir.

### Random Search

* Grid Serach'ün tersine Random Search bütün parametre kombinasyonları ile değil rasgele seçtiği bir kaç kombinasyon ile tahminler yapar.
* RandomizedSearchCV (Randomized Search Cross Validation) 'fit' ve 'score' metodlarını otomatik uygular.
* Eldeki parametre kombinasyonlarından (parametre grid'i denir) en iyisi seçilir.
* Random Search, daha az tahmin yaptığı için, Grid Search'e kıyasla daha az maliyetlidir.

## Grid Searh Örneği:

Titanic Dataset'ini kullancağız. Data ön işleme adımlarını atlayacağız.

https://www.kaggle.com/c/titanic/overview

**Adımlarımız:**

* pandas ile data yükleme ve manipülasyon
* Sklearn ile train_test_split
* Sklearn GridSearchCV ile seçtiğimiz tüm parametre kombinasyonları üzerinde Cross Validation
* Sklearn RandomizedSearchCV ile seçtiğimiz parametre kombinasyonları üzerinde rasgele Cross Validation
* KNN ile tahmin

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier

### Veriyi Yükleyelim:

In [2]:
train_data = pd.read_csv('data/titanic/train.csv')

In [3]:
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
# eksik verili satırları sil

train_data.dropna(axis=0, subset=['Survived'], inplace=True)

In [5]:
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
# sonuç değişkeni

y = train_data.Survived
y

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

In [7]:
# train datadan y'yi çıkar

train_data.drop(['Survived'], axis=1, inplace=True)

In [8]:
train_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [9]:
# İçinde Null değerler olan Age sütununu sil

train_data.drop(['Age'], axis=1, inplace=True)

In [10]:
train_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,"Braund, Mr. Owen Harris",male,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,0,PC 17599,71.2833,C85,C
2,3,3,"Heikkinen, Miss. Laina",female,0,0,STON/O2. 3101282,7.925,,S
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1,0,113803,53.1,C123,S
4,5,3,"Allen, Mr. William Henry",male,0,0,373450,8.05,,S


In [11]:
# sadece numerik kolonları seç

numeric_cols = [cname for cname in train_data.columns if train_data[cname].dtype in ['int64', 'float64']]

In [12]:
X = train_data[numeric_cols].copy()

In [13]:
X.head()

Unnamed: 0,PassengerId,Pclass,SibSp,Parch,Fare
0,1,3,1,0,7.25
1,2,1,1,0,71.2833
2,3,3,0,0,7.925
3,4,1,1,0,53.1
4,5,3,0,0,8.05


In [14]:
print("Train datanın şekli: {} ve sonuç değişkenin şekli: {}".format(X.shape, y.shape))

Train datanın şekli: (891, 5) ve sonuç değişkenin şekli: (891,)


In [15]:
# ilk 5 train datasını göster

pd.concat([X, y], axis=1).head()

Unnamed: 0,PassengerId,Pclass,SibSp,Parch,Fare,Survived
0,1,3,1,0,7.25,0
1,2,1,1,0,71.2833,1
2,3,3,0,0,7.925,1
3,4,1,1,0,53.1,1
4,5,3,0,0,8.05,0


Nihai datamızda 891 adet satır ve 5 adet sütun var. Amacımız Survived yani hayatta kalma durumunu 0 veya 1 olarak tahmin etmek. 1 -> hayatta kaldı demek.

### Hyperparameter Tuning Olmadan Model Skor'u

In [17]:
# datayı train-test split olarak ayıralım

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state= 42)

In [18]:
# verilerin şekilleri

print('X_train ölçüleri = ', X_train.shape)
print('X_test ölçüleri = ', X_test.shape)
print('y_train ölçüleri = ', y_train.shape)
print('y_train ölçüleri = ', y_test.shape)

X_train ölçüleri =  (712, 5)
X_test ölçüleri =  (179, 5)
y_train ölçüleri =  (712,)
y_train ölçüleri =  (179,)


https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [19]:
# şimdi KNN ile çözelim
# rasgele olarak K = 3 alalım

neigh = KNeighborsClassifier(n_neighbors=3)

neigh.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

In [20]:
# tahmin yapalım

y_pred = neigh.predict(X_test)

print(y_pred)

[0 1 0 0 0 1 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 1 0 0 1 0 1 1 1
 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0 0 0 1 0
 0 0 0 0 0 0 1 1 0 0 1 1 0 1 1 0 0 1 0 0 0 0 0 1 1 1 0 0 0 0 1 1 1 1 0 0 1
 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 0 0 1 0 0 0 1 0 0 0 0 1]


In [22]:
# tahmin olasıkları
# 0.5'in üstü ise o sınıf seçilir

y_predict_proba = neigh.predict_proba(X_test)

print(y_predict_proba)

[[0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [1.         0.        ]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [1.         0.        ]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.         1.        ]
 [1.         0.        ]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [1.         0.        ]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]


In [28]:
# tahmin kaletisi için F1 scoruna bakalım

from sklearn.metrics import confusion_matrix, accuracy_score, f1_score

In [24]:
# önce confusion matrix

conf_mat = confusion_matrix(y_test, y_pred)

print(conf_mat)

[[80 25]
 [44 30]]


In [29]:
# accuracy

accuracy = accuracy_score(y_test, y_pred)

print('Sklearn Accuracy Score: {:.4f}'.format(accuracy))

Sklearn Accuracy Score: 0.6145


In [26]:
# f1 score

f1 = f1_score(y_test, y_pred)

print('F1 Score: %{:.2f}'.format(f1 * 100))

F1 Score: %46.51


Şimdiye kadar, yeni herhangi bir şey yapmadık. Rasgele olarak K = 3 verdik ve bir sonuç elde ettik.
* %61 Accuracy
* %47 F1 Score

### Hyperparameter Tuning ile Model Skor'u

Şimdi Grid Search ile deneyelim:

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [30]:
# parametre nesnemizi oluşturalım

parameters = {
    'n_neighbors': [1, 3, 5, 7, 9, 11, 13]
}

In [41]:
# GridSearchCV'yi oluşturalım

gsc = GridSearchCV(estimator = KNeighborsClassifier(), 
                   param_grid = parameters, 
                   cv = 5, 
                   verbose = 1, 
                   scoring = 'accuracy')

GridSearchCV bizim verdiğimiz tüm parametre kombinasyonlarını deneyecek.

En iyi sonucu elde ettiğinde, datayı tekrar 'fit' edecek ama bu sefer CV yapmayacak.

Çünkü en iyi kombinasyonu zaten bulmuş olacak.

In [42]:
# şimdi çalıştıralım

gsc.fit(X_train, y_train) 

Fitting 5 folds for each of 7 candidates, totalling 35 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  35 out of  35 | elapsed:    0.2s finished


GridSearchCV(cv=5, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': [1, 3, 5, 7, 9, 11, 13]},
             scoring='accuracy', verbose=1)

In [43]:
# Şimdi GridSearchCV'nin sonuçlarını gösterelim

print(f'En iyi Hyperparameterlar: {gsc.best_params_}') 
print(f'En iyi score: {gsc.best_score_}')

En iyi Hyperparameterlar: {'n_neighbors': 11}
En iyi score: 0.6305820939623756


In [44]:
# Detaylı sonucu 

print('Detaylı GridSearchCV sonucu:')
gsc_result = pd.DataFrame(gsc.cv_results_).sort_values('mean_test_score', ascending= False)

print(gsc_result)

Detaylı GridSearchCV sonucu:
   mean_fit_time  std_fit_time  mean_score_time  std_score_time  \
5       0.002797      0.000748         0.005980        0.000031   
6       0.002205      0.000420         0.005783        0.000398   
2       0.002600      0.000807         0.005180        0.000387   
4       0.001995      0.000002         0.005571        0.000491   
1       0.002787      0.000411         0.005797        0.000969   
3       0.002193      0.000399         0.005187        0.000398   
0       0.003401      0.000491         0.006382        0.000787   

  param_n_neighbors               params  split0_test_score  \
5                11  {'n_neighbors': 11}           0.671329   
6                13  {'n_neighbors': 13}           0.671329   
2                 5   {'n_neighbors': 5}           0.671329   
4                 9   {'n_neighbors': 9}           0.657343   
1                 3   {'n_neighbors': 3}           0.664336   
3                 7   {'n_neighbors': 7}           0.650

In [45]:
# biraz daha sade yazalım

print(gsc_result[['param_n_neighbors', 'mean_test_score', 'rank_test_score']])

  param_n_neighbors  mean_test_score  rank_test_score
5                11         0.630582                1
6                13         0.630523                2
2                 5         0.619285                3
4                 9         0.616557                4
1                 3         0.609485                5
3                 7         0.603841                6
0                 1         0.578578                7


GridSearchCV Sonuçlarından gördüğümüz gibi en iyi sonuç K = 11 değeri.

Şimdi buna göre modelimizi tekrar çalıştırabiliriz:

In [47]:
# En iyi hyperparameter değeri olan K = 11 için 1 kere çalıştıralım

# 1 kere çalışsın
neigh_final = KNeighborsClassifier(n_neighbors=11)

neigh_final.fit(X_train, y_train)

y_pred_final = neigh_final.predict(X_test)

accuracy_final = accuracy_score(y_test, y_pred_final)
print('Final Accuracy Score: {:.4f}'.format(accuracy_final))

f1_final = f1_score(y_test, y_pred_final)
print('F1 Score: %{:.2f}'.format(f1_final * 100))

Final Accuracy Score: 0.6536
F1 Score: %43.64


In [49]:
# 5 kere çalışsın 
# 5 kere çalışınca bulacağımız ortala accuracy değeri, GridSearchCV'nin verdiğine yakın olacaktır
# StratifiedKFold yaplım -> 5 fold için

from sklearn.model_selection import StratifiedKFold, cross_val_score
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
score = cross_val_score(KNeighborsClassifier(), X_train, y_train, cv= kf, scoring="accuracy")
score.mean()

0.6333694474539545

Gördüğünüz gibi, K = 11 için;
* GridSearchCV'nin verdiği ortalama Accuracy değeri   -> 0.630582 
* StratifiedKFold'ün verdiği ortalama Accuracy değeri -> 0.633369

### Random Search ile Aynı İşlemler

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html

In [54]:
# GridSearchCV'yi oluşturalım
# n_iter -> kaç adet parametre alacak

rsc = RandomizedSearchCV(estimator = KNeighborsClassifier(), 
                   param_distributions = parameters, 
                   cv = 5, 
                   n_iter = 3,
                   verbose = 1, 
                   scoring = 'accuracy')

In [55]:
# şimdi çalıştıralım

rsc.fit(X_train, y_train) 

Fitting 5 folds for each of 3 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  15 out of  15 | elapsed:    0.0s finished


RandomizedSearchCV(cv=5, estimator=KNeighborsClassifier(), n_iter=3,
                   param_distributions={'n_neighbors': [1, 3, 5, 7, 9, 11, 13]},
                   scoring='accuracy', verbose=1)

In [56]:
# Şimdi RandomizedSearchCV'nin sonuçlarını gösterelim

print(f'En iyi Hyperparameterlar: {rsc.best_params_}') 
print(f'En iyi score: {rsc.best_score_}')

En iyi Hyperparameterlar: {'n_neighbors': 11}
En iyi score: 0.6305820939623756


### Sonuç:

Gördüğünüz gibi, GridSearchCV ve RandomizedSearchCV yöntemleri bize en iyi Hyperparametre değerlerini bulmamızda yardım ettiler.

Büyük veri kümelerinde RandomizedSearchCV yöntemi, maliyet açısından tercih edilir.