# K - En Yakın Komşu (KNN) Algoritması

Tahminlerin gözlem benzerliğine göre yapılır.

KNN Basamakları
* Komşu sayısını belirle (K)
* Bilinmeyen nokta ile diğer tüm noktalar ile arasındaki uzaklıkları hesapla
* Uzaklıkları sırala ve belirlenen k sayısına göre en yakın olan k gözlemi seç
* Sınıflandırma ise en sık sınıf, regresyon ise ortalama değeri tahmin değeri olarak ver.

* Öklid ya da benzeri bir uzaklık hesabı ile yeni gözlemin her bir gözleme olan uzaklığı hesaplanır.
* En yakın K adet gözlemin y değerlerinin en sık gözlenen frekansı tahmin edilen sınıf olur.

## KNN - Model & Tahmin

In [5]:
# bilgilerin gözükmesi için
from sklearn import set_config
set_config(print_changed_only=False)

In [1]:
import pandas as pd
# veri setimizi import edelim
diabetes = pd.read_csv("diabetes.csv")

In [2]:
df = diabetes.copy()
df = df.dropna()
y = df["Outcome"]
X = df.drop(["Outcome"], axis=1)

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.30,
                                                   random_state=42)

In [7]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier()
knn_model = knn.fit(X_train, y_train)
knn_model # n_neighbors=5 (k=5)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

In [8]:
# tahmin edilen y_test değerleri
y_pred = knn_model.predict(X_test)

In [10]:
# ilkel skor
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.6883116883116883

In [12]:
# doğrulanmış değer
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.77      0.75      0.76       151
           1       0.55      0.56      0.56        80

    accuracy                           0.69       231
   macro avg       0.66      0.66      0.66       231
weighted avg       0.69      0.69      0.69       231



## KNN - Model Tuning

In [14]:
import numpy as np
from sklearn.model_selection import GridSearchCV
# GridSearchCV yöntemiyle optimum hiperparametre değerlerini bulacağım
knn_params = {"n_neighbors":np.arange(1,50)} # k komşu sayılarını oluşturdum

In [15]:
knn = KNeighborsClassifier() # modeli oluşturdum
# 50 tane parametre var ve 10 katlı Cross Validation işlemi yapılacak
knn_cv = GridSearchCV(knn, knn_params, cv=10)
knn_cv.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30,
                                            metric='minkowski',
                                            metric_params=None, n_jobs=None,
                                            n_neighbors=5, p=2,
                                            weights='uniform'),
             n_jobs=None,
             param_grid={'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=None, verbose=0)

In [16]:
# 10 katlı cv yapıldı
# en iyi skorlu cross validation değerleri nelerdir?
print("En iyi skor: " + str(knn_cv.best_score_))
# ve best parametre değeri nedir?
print("En iyi parametreler: " + str(knn_cv.best_params_))

En iyi skor: 0.748637316561845
En iyi parametreler: {'n_neighbors': 11}


In [None]:
# en iyi parametre ile final modeli oluşturacağım
# bu final modeli üzerinden değerlendirme yapacağım
# en optimum komşu sayısı 11 (model hiperparametresi)

In [18]:
# en iyi parametre ile final modeli oluşturacağım
knn = KNeighborsClassifier(11)
knn_tuned = knn.fit(X_train, y_train)

In [19]:
# accuracy skor
knn_tuned.score(X_test, y_test)

0.7316017316017316

In [22]:
# y tahmin değerleri
y_pred = knn_tuned.predict(X_test)

In [23]:
accuracy_score(y_test, y_pred)

0.7316017316017316

score fonksiyonunu kullanarak accuracy değerine daha kısa bir şekilde ulaşabiliriz.