![image.png](image01.png)

Doğrusal olmayan regresyon modelleri, bağımlı değişken ile bağımsız değişkenler arasındaki doğrusal olmayan ilişkileri modellemek için kullanılır ve genellikle karmaşık veri yapıları veya etkileşimli etkiler içeren durumlarda tercih edilir.

# K-En Yakın Komşu (KNN) (K-Nearest Neighbors)

Tahminler, gözlem benzerliğine göre yapılır.  
Bana arkadaşını söyle sana kim olduğunu söyleyeyim.

Büyük veri setlerinde iyi çalışmasa da küçük veri setlerinde iyi çalışan, basit ve yaygın bir algoritmadır. Kategorik problemler için oluşturulmuştur daha sonrasında sürekli değişkenler için uygulanmıştır. K seçilir(örn k=5), ardından bu 5 gözleme göre tahmin yapılır.

![image.png](image02.png)

![image.png](image03.png)

## Model

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

hit = pd.read_csv("Hitters.csv")
df = hit.copy()
df = df.dropna()
ms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
y = df["Salary"]
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float')
X = pd.concat([X_, ms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.25, 
                                                    random_state=42)

In [2]:
from sklearn.neighbors import KNeighborsRegressor
knn_model = KNeighborsRegressor()

In [3]:
knn_model.fit(X_train, y_train)

In [4]:
knn_model.get_params()

{'algorithm': 'auto',
 'leaf_size': 30,
 'metric': 'minkowski',
 'metric_params': None,
 'n_jobs': None,
 'n_neighbors': 5,
 'p': 2,
 'weights': 'uniform'}

In [5]:
knn_model.n_neighbors

5

## Tahmin

In [6]:
knn_model.predict(X_test)

array([ 510.3334,  808.3334,  772.5   ,  125.5   , 1005.    ,  325.5   ,
        216.5   ,  101.5   ,  982.    ,  886.6666,  590.    ,  901.6666,
        831.6666,  157.5   ,  393.    , 1005.    ,  735.5   ,   97.    ,
        884.4   ,  302.    ,  450.    ,  817.6666,  832.6666,  392.3334,
        528.    ,   81.6   ,  735.    ,  470.    ,  722.5   ,  101.    ,
         90.5   ,   74.6   ,  748.3334,  217.    ,  280.5334, 1044.5   ,
        955.    ,  232.    ,   78.6   ,  529.    ,   77.6   ,  106.5   ,
        516.6666,  593.6666, 1005.    ,  649.1666,  715.    ,  101.5   ,
        134.5   ,  810.    ,  743.    ,  521.3334,  664.3334,  195.    ,
        102.4   ,  728.5   ,  488.    ,  962.5   ,  230.8334, 1040.    ,
        885.    ,  542.    ,  720.4   ,  571.    ,  735.    ,   81.6   ])

In [7]:
y_pred = knn_model.predict(X_test)

In [8]:
np.sqrt(mean_squared_error(y_test, y_pred))

np.float64(426.6570764525201)

In [9]:
RMSE = []

for k in range(10):
    k = k + 1
    knn_model = KNeighborsRegressor(n_neighbors=k).fit(X_train, y_train)
    y_pred = knn_model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    RMSE.append(rmse)
    print("k =", k, "için RMSE değeri:", rmse)

k = 1 için RMSE değeri: 455.03925390751965
k = 2 için RMSE değeri: 415.99629571490965
k = 3 için RMSE değeri: 420.6765370082348
k = 4 için RMSE değeri: 428.8564674588792
k = 5 için RMSE değeri: 426.6570764525201
k = 6 için RMSE değeri: 423.5071669008732
k = 7 için RMSE değeri: 414.9361222421057
k = 8 için RMSE değeri: 413.7094731463598
k = 9 için RMSE değeri: 417.84419990871265
k = 10 için RMSE değeri: 421.6252180741266


## Model Tuning

In [10]:
from sklearn.model_selection import GridSearchCV

Ridge, Lasso ve ElasticNet'te özelleşmiş parametreler olduğu için kullanamadık fakat bundan sonra tuning'de Cross Validation için GridSearchCV kullanacağız. Bu yöntemde parametredeki tüm olası değerler incelenir ve optimum değer bulunur.

In [11]:
knn_params = {'n_neighbors': np.arange(1, 30, 1)}  # parametrenin ismini tam dogru girmeliyiz.

In [12]:
np.arange(1, 30, 1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])