# K-En Yakın Komşu - K-Nearest Neighbors Algoritması (KNN)

- Gözlemlerin birbirine olan benzerlikleri üzerinden tahmin yapılır.
- Sınıflandırma ya da Regresyon problemleri için kullanılan bir algoritmadır. 
- Parametrik olmayan bir öğrenme türüdür.

**KNN Hesaplama Basamakları**
- Komşu sayısı(K) belirlenir.
- Bilinmeyen nokta ile diğer tüm noktalar arasındaki uzaklıklar hesaplanır.
- Uzaklıkları sıralanır ve belirlenen K sayısına gören en yakın olan Kgözlemi seçilir.
- Sınıflandırma ise yakın olan gözlem biriminin en sık tekrar eden sınıfı tahmin sınıf olarak verilir.
- Regresyon Problemi ise ortalama değer tahmin değer olarak verilir.

**Gerekli Kütüphaneler** 

In [71]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import scale, StandardScaler
from sklearn import model_selection
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn import  neighbors
from sklearn.svm import SVR

In [72]:
# Uyarı Mesajları ile Karşılaşmamak için bu kütüphaneyi kullanıyoruz.
from warnings import filterwarnings
filterwarnings("ignore")

# KNN - Model ve Tahmin İşlemleri 

In [73]:
df = pd.read_csv("./Hitters.csv")
# bu csv dosyasının içerisinde eksik gözlemleri(NA) çıkardık.
df = df.dropna()

# Veri seti içerisindeki kategorik değişkenleri dummy değişkenlere çeviriyoruz.
dms = pd.get_dummies(df[["League","Division","NewLeague"]])

# bağımlı değişken
y = df[["Salary"]]

# Veri Setinin içerisinden Bağımlı Değişkeni ve Kategorik değişkenlerin ilk hallerini dışarı bırakıyoruz.
X_ = df.drop(["Salary","League","Division","NewLeague"], axis = 1).astype("float64")

# dms ile X_ birleştirip(concat) bağımsız değişken oluşturduk.
X = pd.concat([X_, dms[["League_N","Division_W","NewLeague_N"]]], axis=1)

# train ve test setlerimizi oluşturuyoruz.
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size = 0.25,
                                                    random_state= 42) 

In [74]:
X_train.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,PutOuts,Assists,Errors,League_N,Division_W,NewLeague_N
183,328.0,91.0,12.0,51.0,43.0,33.0,2.0,342.0,94.0,12.0,51.0,44.0,33.0,145.0,59.0,8.0,1,0,1
229,514.0,144.0,0.0,67.0,54.0,79.0,9.0,4739.0,1169.0,13.0,583.0,374.0,528.0,229.0,453.0,15.0,1,0,1
286,593.0,152.0,23.0,69.0,75.0,53.0,6.0,2765.0,686.0,133.0,369.0,384.0,321.0,315.0,10.0,6.0,0,1,0
102,233.0,49.0,2.0,41.0,23.0,18.0,8.0,1350.0,336.0,7.0,166.0,122.0,106.0,102.0,132.0,10.0,0,0,0
153,341.0,95.0,6.0,48.0,42.0,20.0,10.0,2964.0,808.0,81.0,379.0,428.0,221.0,158.0,4.0,5.0,1,1,1


**Model**

In [75]:
knn_model = KNeighborsRegressor().fit(X_train,y_train)

In [76]:
?knn_model

[1;31mType:[0m        KNeighborsRegressor
[1;31mString form:[0m KNeighborsRegressor()
[1;31mFile:[0m        c:\users\halil\anaconda3\lib\site-packages\sklearn\neighbors\_regression.py
[1;31mDocstring:[0m  
Regression based on k-nearest neighbors.

The target is predicted by local interpolation of the targets
associated of the nearest neighbors in the training set.

Read more in the :ref:`User Guide <regression>`.

.. versionadded:: 0.9

Parameters
----------
n_neighbors : int, default=5
    Number of neighbors to use by default for :meth:`kneighbors` queries.

weights : {'uniform', 'distance'} or callable, default='uniform'
    weight function used in prediction.  Possible values:

    - 'uniform' : uniform weights.  All points in each neighborhood
      are weighted equally.
    - 'distance' : weight points by the inverse of their distance.
      in this case, closer neighbors of a query point will have a
      greater influence than neighbors which are further away.
    - [ca

In [77]:
# Komşu Sayısı
knn_model.n_neighbors

5

In [78]:
knn_model.metric

'minkowski'

In [79]:
# dir fonksiyonu ile bu model nesneleri içerisinden alınabilecek bazı parametreleri görebiliyoruz.
dir(knn_model)

['__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_check_algorithm_metric',
 '_check_n_features',
 '_estimator_type',
 '_fit',
 '_fit_X',
 '_fit_method',
 '_get_param_names',
 '_get_tags',
 '_kneighbors_reduce_func',
 '_more_tags',
 '_pairwise',
 '_repr_html_',
 '_repr_html_inner',
 '_repr_mimebundle_',
 '_tree',
 '_validate_data',
 '_y',
 'algorithm',
 'effective_metric_',
 'effective_metric_params_',
 'fit',
 'get_params',
 'kneighbors',
 'kneighbors_graph',
 'leaf_size',
 'metric',
 'metric_params',
 'n_features_in_',
 'n_jobs',
 'n_neighbors',
 'n_samples_fit_',
 'p',
 'predict',
 'radius',
 'sc

**Tahmin**

In [80]:
knn_model.predict(X_test)[0:5]

array([[ 510.3334],
       [ 808.3334],
       [ 772.5   ],
       [ 125.5   ],
       [1005.    ]])

In [81]:
y_predict = knn_model.predict(X_test)

In [82]:
# Hata Kareler Ortalamasının Karekökü(RMSE)
np.sqrt(mean_squared_error(y_test,y_predict))

426.6570764525201

# KNN - Model Tuning 

In [83]:
knn_model

KNeighborsRegressor()

In [84]:
# El yordamı (Manuel bir şekilde) işlemi yaptık ve en yakın komşu sayısını burdan seçebiliriz. komşu sayısı en uygun olanı en düşük değerli olanıdır (k=8 mesela). 
RMSE = []

for k in range(10):
    k = k+1
    knn_model = KNeighborsRegressor(n_neighbors= k).fit(X_train, y_train)
    y_pred = knn_model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    RMSE.append(rmse)
    print("k =",k, "için RMSE değeri:", rmse)
    

k = 1 için RMSE değeri: 455.03925390751965
k = 2 için RMSE değeri: 415.99629571490965
k = 3 için RMSE değeri: 420.6765370082348
k = 4 için RMSE değeri: 428.8564674588792
k = 5 için RMSE değeri: 426.6570764525201
k = 6 için RMSE değeri: 423.5071669008732
k = 7 için RMSE değeri: 414.9361222421057
k = 8 için RMSE değeri: 413.7094731463598
k = 9 için RMSE değeri: 417.84419990871265
k = 10 için RMSE değeri: 421.6252180741266


In [85]:
# GridSearchCV,
# kullanacak olduğumuz makine öğrenmesi algoritmalarında belirlemeye çalıştığımız hiper parametrelerin değerlerini belirlemek için kullanılan bir fonksiyondur.
# Birbirinden farklı ve fazla sayıda parametre olduğunda onları bir grid(ızgara) mantığı ile değerlendirip olası tüm parametre kombinasyonlarını değerlendirmek ve kıyaslama yapmak için bu fonksiyon kullanılır.

In [113]:
# Probleme Fonksiyonel bir şekilde yaklaşıp en iyi en uygun komşu sayısını bulabiliriz ve kod sadeliği açısında önemlidir.
knn_params = {"n_neighbors": np.arange(1,50,1)}

In [114]:
knn_models = KNeighborsRegressor()

In [115]:
knn_cv_model = GridSearchCV(knn_models,knn_params, cv=10).fit(X_train, y_train)

In [116]:
knn_cv_model

GridSearchCV(cv=10, estimator=KNeighborsRegressor(),
             param_grid={'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])})

In [117]:
# fonksiyonel bir şekilde k en iyi olan komşu sayısını bulmuş olduk.
knn_cv_model.best_params_

{'n_neighbors': 8}

**Final Modeli**

In [118]:
knn_tuned = KNeighborsRegressor(n_neighbors= knn_cv_model.best_params_["n_neighbors"]).fit(X_train,y_train)

In [119]:
y_pred = knn_tuned.predict(X_test)
np.sqrt(mean_squared_error(y_test,y_pred))

413.7094731463598