In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [3]:
train_data= pd.read_csv("data/titanic_train.csv")

In [4]:
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
# eksik verili satırları sil

train_data.dropna(axis=0, subset=["Survived"], inplace=True)

In [8]:
# sonuç değişkeni

y= train_data.Survived

In [9]:
# train datadan y'yi çıkar

train_data.drop(["Survived"], axis=1, inplace=True)

In [10]:
# İçinde Null değerler olan Age sütununu sil

train_data.drop(["Age"], axis=1, inplace=True)

In [11]:
# sadece numerik kolonları seç

numeric_cols= [cname for cname in train_data.columns if train_data[cname].dtype in ["int64","float64"]]

In [12]:
X= train_data[numeric_cols].copy()

In [14]:
X.head()

Unnamed: 0,PassengerId,Pclass,SibSp,Parch,Fare
0,1,3,1,0,7.25
1,2,1,1,0,71.2833
2,3,3,0,0,7.925
3,4,1,1,0,53.1
4,5,3,0,0,8.05


In [15]:
print("Train datanın şekli: {} ve sonuç değişkenin şekli: {}".format(X.shape, y.shape))

Train datanın şekli: (891, 5) ve sonuç değişkenin şekli: (891,)


In [16]:
# ilk 5 train datasını göster

pd.concat([X,y], axis=1).head()

Unnamed: 0,PassengerId,Pclass,SibSp,Parch,Fare,Survived
0,1,3,1,0,7.25,0
1,2,1,1,0,71.2833,1
2,3,3,0,0,7.925,1
3,4,1,1,0,53.1,1
4,5,3,0,0,8.05,0


**Hyperparameter Tuning Olmadan Model Skor'u**

In [17]:
# datayı train-test split olarak ayıralım

X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2, random_state=42)

In [18]:
# verilerin şekilleri

print('X_train ölçüleri = ', X_train.shape)
print('X_test ölçüleri = ', X_test.shape)
print('y_train ölçüleri = ', y_train.shape)
print('y_train ölçüleri = ', y_test.shape)

X_train ölçüleri =  (712, 5)
X_test ölçüleri =  (179, 5)
y_train ölçüleri =  (712,)
y_train ölçüleri =  (179,)


In [20]:
# şimdi KNN ile çözelim
# rasgele olarak K = 3 alalım

neigh= KNeighborsClassifier(n_neighbors=3)

neigh.fit(X_train, y_train)

In [21]:
# tahmin yapalım

y_pred= neigh.predict(X_test)

print(y_pred)

[0 1 0 0 0 1 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 1 0 0 1 0 1 1 1
 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0 0 0 1 0
 0 0 0 0 0 0 1 1 0 0 1 1 0 1 1 0 0 1 0 0 0 0 0 1 1 1 0 0 0 0 1 1 1 1 0 0 1
 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 0 0 1 0 0 0 1 0 0 0 0 1]


In [23]:
# tahmin olasıkları (predict_proba)
# 0.5'in üstü ise o sınıf seçilir, ve yukarıda bir değerine sahip olan bunlardır

y_predict_proba= neigh.predict_proba(X_test)
print(y_predict_proba)

[[0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [1.         0.        ]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [1.         0.        ]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.         1.        ]
 [1.         0.        ]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.33333333 0.66666667]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [1.         0.        ]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [1.         0.        ]
 [1.         0.        ]
 [0.66666667 0.33333333]
 [0.66666667 0.33333333]


In [24]:
# tahmin kaletisi için F1 scoruna bakalım
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score

In [26]:
# önce confusion matrix, TP,TN,FP,FN

conf_mat= confusion_matrix(y_test, y_pred)
print(conf_mat)

[[80 25]
 [44 30]]


In [27]:
#accuracy

accuracy= accuracy_score(y_test,y_pred)
print("Skleanr Accuracy Score: {:.4f}".format(accuracy))

Skleanr Accuracy Score: 0.6145


In [28]:
#f1 score

f1= f1_score(y_test,y_pred)
print("F1 Score %{:.2f}".format(f1*100))

F1 Score %46.51


Şimdiye kadar, yeni herhangi bir şey yapmadık. Rasgele olarak K = 3 verdik ve bir sonuç elde ettik.


**Hyperparameter Tuning ile Model Skor'u**

In [40]:
# parametre nesnemizi oluşturalım

parameters= {
    "n_neighbors": [1,3,5,7,9,11,13]     
}

In [41]:
# GridSearchCV'yi oluşturalım

gsc= GridSearchCV(estimator= KNeighborsClassifier(),
                 param_grid= parameters,
                 cv= 5,#veri  kümesini 5'e bölecek
                 verbose= 1, #sonuç göster, 0=gösterme
                 scoring= "accuracy")

GridSearchCV bizim verdiğimiz tüm parametre kombinasyonlarını deneyecek.

En iyi sonucu elde ettiğinde, datayı tekrar 'fit' edecek ama bu sefer CV yapmayacak.

Çünkü en iyi kombinasyonu zaten bulmuş olacak.

In [42]:
gsc.fit(X_train, y_train)

Fitting 5 folds for each of 7 candidates, totalling 35 fits


In [43]:
# Şimdi GridSearchCV'nin sonuçlarını gösterelim

print(f"En iyi hiperparametreler: {gsc.best_params_}")
print(f"En iyi score: {gsc.best_score_}")

En iyi hiperparametreler: {'n_neighbors': 13}
En iyi score: 0.630522998128632


In [46]:
# Detaylı sonucu 

print("Detaylı GridSearchCV sonucu:")
gsc_result= pd.DataFrame(gsc.cv_results_).sort_values("mean_test_score", ascending= False)
#.sorttan sonrası: oluşturulan veri çerçevesini "mean_test_score" sütununa göre büyükten küçüğe sıralar. 
print(gsc_result)

Detaylı GridSearchCV sonucu:
   mean_fit_time  std_fit_time  mean_score_time  std_score_time  \
6       0.006250      0.007655         0.013810        0.007352   
5       0.006250      0.007655         0.013810        0.003643   
2       0.003338      0.004107         0.016321        0.001018   
4       0.003130      0.006259         0.015206        0.000840   
1       0.003125      0.006250         0.018923        0.005447   
3       0.004725      0.006270         0.014171        0.002917   
0       0.005839      0.004137         0.016795        0.005329   

  param_n_neighbors               params  split0_test_score  \
6                13  {'n_neighbors': 13}           0.671329   
5                11  {'n_neighbors': 11}           0.671329   
2                 5   {'n_neighbors': 5}           0.671329   
4                 9   {'n_neighbors': 9}           0.657343   
1                 3   {'n_neighbors': 3}           0.664336   
3                 7   {'n_neighbors': 7}           0.650

In [47]:
# biraz daha sade yazalım
print(gsc_result[["param_n_neighbors",'mean_test_score', 'rank_test_score']])

  param_n_neighbors  mean_test_score  rank_test_score
6                13         0.630523                1
5                11         0.629174                2
2                 5         0.619285                3
4                 9         0.616557                4
1                 3         0.609485                5
3                 7         0.603841                6
0                 1         0.578578                7


Burada görüldüğü gibi K için en iyi değerin 13 olduğunu söylüyor.

In [49]:
# En iyi hyperparameter değeri olan K = 13 için 1 kere çalıştıralım
#Sağlama

neigh_final= KNeighborsClassifier(n_neighbors=13)
neigh_final.fit(X_train, y_train)
y_pred_final= neigh_final.predict(X_test)

accuracy_final= accuracy_score(y_test, y_pred_final)
print("Dinal Accuracy Score: {:.4f}".format(accuracy_final))

f1_final= f1_score(y_test, y_pred_final)
print("F1 Score: %{:.2f}".format(f1_final*100))

Dinal Accuracy Score: 0.6425
F1 Score: %42.86


In [52]:
# 5 kere çalışsın 
# 5 kere çalışınca bulacağımız ortala accuracy değeri, GridSearchCV'nin verdiğine yakın olacaktır
# StratifiedKFold yaplım -> 5 fold için

from sklearn.model_selection import StratifiedKFold, cross_val_score
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
score = cross_val_score(KNeighborsClassifier(), X_train, y_train, cv= kf, scoring="accuracy")
score.mean() #5 kere çalışmanın ortu

0.6333694474539545

K=13 için;
* GridSearchCV'nin verdiği ortalama Accuracy değeri   -> 0.630523
* StratifiedKFold'ün verdiği ortalama Accuracy değeri -> 0.633369

**Random Search ile Aynı İşlemler**

In [57]:
# GridSearchCV'yi oluşturalım
# n_iter -> kaç adet parametre alacak
"""GridSearch 35 deneme yapıyordu  RandomSearc ise n_iter=3 ile rastgele 
seçeceği 3 aday sayesinde yine 5 parçaya büölmesine rağman 15 deneme yapmış
olacak. Ve yine K=13 olarak anı sonucu buldu"""

rsc= RandomizedSearchCV(estimator= KNeighborsClassifier(),
                       param_distributions= parameters,
                       cv=5,
                       n_iter=3,
                       verbose=1,
                       scoring= "accuracy")

In [58]:
# şimdi çalıştıralım
rsc.fit(X_train, y_train)

Fitting 5 folds for each of 3 candidates, totalling 15 fits


In [59]:
# Şimdi RandomizedSearchCV'nin sonuçlarını gösterelim

print(f'En iyi Hyperparameterlar: {rsc.best_params_}') 
print(f'En iyi score: {rsc.best_score_}')

En iyi Hyperparameterlar: {'n_neighbors': 5}
En iyi score: 0.619284940411701


**Sonuç:**

Gördüğünüz gibi, GridSearchCV ve RandomizedSearchCV yöntemleri bize en iyi Hyperparametre değerlerini bulmamızda yardım ettiler.

Büyük veri kümelerinde RandomizedSearchCV yöntemi, maliyet açısından tercih edilir.










