# K-En Yakın Komşu (KNN)

**Tahminler Gözlem benzerliğine göre yapılır.** Parametrik olmayan bir öğrenme türüdür. Anlaşılması kolaydır. Büyük veri setlerinde çok başarılı olduğu söylenemez fakat sınıflandırma problemleri için ortaya çıkmış daha sonra da regresyon problemlerine uyarlanmıştır. Uygulanması ve kullanılması kolay olduğu için tercih edilen bir yaklaşımdır.

![image.png](attachment:d8188a02-f5eb-4e4d-a3a5-b624d63a5060.png)

![image.png](attachment:a86c0049-8e0a-416c-a9b2-612d17ba3a6b.png)

### KNN Model

In [36]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, ShuffleSplit, GridSearchCV, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale
from sklearn import model_selection
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import BaggingRegressor

from warnings import filterwarnings
filterwarnings('ignore')

In [37]:
hit = pd.read_csv("Hitters.csv")
df = hit.copy()
df = df.dropna()
dms = pd.get_dummies(df[["League","Division","NewLeague"]])
y = df["Salary"]
X_ = df.drop(["Salary","League","Division","NewLeague"],axis=1).astype("float64")
X = pd.concat([X_ ,dms[["League_N","Division_W","NewLeague_N"]]],axis=1)

X_Train, X_Test, Y_Train, Y_Test = train_test_split(X, y, test_size=0.25, random_state=42)

In [38]:
knn_model = KNeighborsRegressor().fit(X_Train, Y_Train)
knn_model

KNeighborsRegressor()

In [39]:
knn_model.n_neighbors

5

### Tahmin

In [40]:
y_pred = knn_model.predict(X_Test)

In [41]:
np.sqrt(mean_squared_error(Y_Test, y_pred))

426.6570764525201

In [42]:
RMSE = []
for k in range(10):
    k =k+1
    knn_model = KNeighborsRegressor(n_neighbors = k).fit(X_Train, Y_Train)
    y_pred = knn_model.predict(X_Train)
    rmse = np.sqrt(mean_squared_error(Y_Train, y_pred))
    RMSE.append(rmse)
    print("k=", k, "için RMSE değeri:",rmse)

k= 1 için RMSE değeri: 0.0
k= 2 için RMSE değeri: 179.52761335480352
k= 3 için RMSE değeri: 205.20157172291863
k= 4 için RMSE değeri: 220.5139794876305
k= 5 için RMSE değeri: 239.6467132541376
k= 6 için RMSE değeri: 243.5904190007242
k= 7 için RMSE değeri: 258.1478781634636
k= 8 için RMSE değeri: 266.05374203349805
k= 9 için RMSE değeri: 269.73782093553376
k= 10 için RMSE değeri: 271.2798300436963


### Model Tuning

In [43]:
knn_params = {'n_neighbors': np.arange(1,30,1)}

In [44]:
knn = KNeighborsRegressor()

In [45]:
knn_cv_model = GridSearchCV(knn, knn_params, cv=10)

In [46]:
knn_cv_model.fit(X_Train, Y_Train)

GridSearchCV(cv=10, estimator=KNeighborsRegressor(),
             param_grid={'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])})

In [47]:
knn_cv_model.best_params_["n_neighbors"]

8

In [48]:
knn_tuned = KNeighborsRegressor(n_neighbors=knn_cv_model.best_params_["n_neighbors"])
knn_tuned.fit(X_Train, Y_Train)

KNeighborsRegressor(n_neighbors=8)

In [49]:
np.sqrt(mean_squared_error(Y_Test, knn_tuned.predict(X_Test)))

413.7094731463598