# Doğrusal Olmayan Regresyon Modelleri

### Giriş:

# K-En yakın Komşu(K-Nearest Neighbors)

Gözlemlerin birbirine olan benzerlikleri üzerinden tahmin yapılır

Paremetrik olmayan bir öğrenme türüdür.

Büyük veri setlerinde kullanışsız ama basit olduğu için sıkça kullanılan algoritmalardandır.

- Komşu sayısını belirle
- Bilinmeyen nokta ile diğer tüm noktalar işe arasındaki uzaklıkları hesapla
- uzaklıkları sırala ve belirlenen k sayısına göre en yakın olan k gözlemi se.
- Sınıflandırma ise en sık sınıf regresyon ise ortalama deger tahmin degeri olark ver

In [14]:
import numpy as np
import pandas as pd 
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale, StandardScaler
from sklearn import model_selection
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.metrics import confusion_matrix, accuracy_score, mean_squared_error, r2_score, roc_auc_score, roc_curve, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsClassifier,KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier,MLPRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier,RandomForestRegressor
from sklearn.ensemble import GradientBoostingClassifier,GradientBoostingRegressor
from sklearn import neighbors
from sklearn.svm import SVR

In [15]:
from warnings import filterwarnings
filterwarnings("ignore")

# KNN

In [16]:
df = pd.read_csv("Hitters.csv")
df = df.dropna()
dms = pd.get_dummies(df[["League","Division","NewLeague"]])
#Veri setindeki kategorik değişkenler için dummy değişkenler oluşturduk
#One hot encoding yöntemi ile.
y = df["Salary"] #Bağımlı değişkenimiz
X_ = df.drop(["Salary","League","Division","NewLeague"],axis=1).astype("float64")
#Veri setimizdeki bağımlı değişken ve kategorik değişkenlerimizin orjinal hallerini uçurduk
X = pd.concat([X_,dms[["League_N","Division_W","NewLeague_N"]]],axis = 1)
#Bu kategorik değişkenlerin dummy versyonlarını ve diğer bağımsız
#değişken değerlerimizi bir arada tutarak bağımsız değişkenlerimizi
#X olarak oluşturmuş olduk
X_train,X_test,y_train,y_test  =train_test_split(X,y,test_size = 0.25,random_state=42)

In [17]:
X_train.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,PutOuts,Assists,Errors,League_N,Division_W,NewLeague_N
183,328.0,91.0,12.0,51.0,43.0,33.0,2.0,342.0,94.0,12.0,51.0,44.0,33.0,145.0,59.0,8.0,1,0,1
229,514.0,144.0,0.0,67.0,54.0,79.0,9.0,4739.0,1169.0,13.0,583.0,374.0,528.0,229.0,453.0,15.0,1,0,1
286,593.0,152.0,23.0,69.0,75.0,53.0,6.0,2765.0,686.0,133.0,369.0,384.0,321.0,315.0,10.0,6.0,0,1,0
102,233.0,49.0,2.0,41.0,23.0,18.0,8.0,1350.0,336.0,7.0,166.0,122.0,106.0,102.0,132.0,10.0,0,0,0
153,341.0,95.0,6.0,48.0,42.0,20.0,10.0,2964.0,808.0,81.0,379.0,428.0,221.0,158.0,4.0,5.0,1,1,1


### Model

In [18]:
knn_model = KNeighborsRegressor().fit(X_train,y_train)

In [19]:
knn_model

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                    weights='uniform')

In [22]:
knn_model.n_neighbors

5

In [24]:
knn_model.metric

'minkowski'

In [25]:
dir(knn_model)

['__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_check_algorithm_metric',
 '_estimator_type',
 '_fit',
 '_fit_X',
 '_fit_method',
 '_get_param_names',
 '_get_tags',
 '_kneighbors_reduce_func',
 '_more_tags',
 '_pairwise',
 '_tree',
 '_y',
 'algorithm',
 'effective_metric_',
 'effective_metric_params_',
 'fit',
 'get_params',
 'kneighbors',
 'kneighbors_graph',
 'leaf_size',
 'metric',
 'metric_params',
 'n_jobs',
 'n_neighbors',
 'n_samples_fit_',
 'p',
 'predict',
 'radius',
 'score',
 'set_params',
 'weights']

In [26]:
#Tahmit etme işemi
knn_model.predict(X_test)[0:5]

array([ 510.3334,  808.3334,  772.5   ,  125.5   , 1005.    ])

In [27]:
y_pred = knn_model.predict(X_test)

In [28]:
np.sqrt(mean_squared_error(y_test,y_pred))#ilkel test hatamız.

426.6570764525201

### Model Tuning

In [31]:
knn_model

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                    weights='uniform')

In [33]:
RMSE = []
for k in range(10): #k komşuluk sayısı değiştikçe hata karelerinin ortlamasının karekökü değişiyor.bunu elle for döngüsüyle yaptık.
    k = k+1
    knn_model = KNeighborsRegressor(n_neighbors = k).fit(X_train,y_train)
    y_pred = knn_model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test,y_pred)) #gerçek değerler ile tahmin edilen değerler arasındaki farkı alıcaz
    RMSE.append(rmse)
    print("k=",k,"icin RMSE degeri:",rmse)

k= 1 icin RMSE degeri: 455.03925390751965
k= 2 icin RMSE degeri: 415.99629571490965
k= 3 icin RMSE degeri: 420.6765370082348
k= 4 icin RMSE degeri: 428.8564674588792
k= 5 icin RMSE degeri: 426.6570764525201
k= 6 icin RMSE degeri: 423.5071669008732
k= 7 icin RMSE degeri: 414.9361222421057
k= 8 icin RMSE degeri: 413.7094731463598
k= 9 icin RMSE degeri: 417.84419990871265
k= 10 icin RMSE degeri: 421.6252180741266


In [34]:
#Yukarıdakini daha otamatik bir şekilde yapmak isteriz.
#GridSearchCV   ızgara mantığı
#Kullanıcak olduğumuz makine öğrenme algoritmalarında belirlemeye çalıştığımız
#hiper paremetrelerin değerlerini belirlemek için kullanılan bir fonksyondur.

#Birbirinden farklı ve fazla sayıda paremetre olduğunda onları bir grid mantığıyla
#değerlendirip olası tüm paremetre kombinasyonlarını değerlendirmek ve kıyaslama
# yapmak için kullanılan bir fonksyon bu GridSearchCV

In [35]:
knn_params = {"n_neighbors":np.arange(1,30,1)} #birden 30 a kadar olsun ve birer birer artsın.

In [36]:
knn = KNeighborsRegressor()

In [37]:
knn_cv_model =GridSearchCV(knn,knn_params,cv = 10).fit(X_train,y_train)

In [39]:
knn_cv_model.best_params_ #en iyi k sayısı:

{'n_neighbors': 8}

In [40]:
#Şimdi bu 8 i kullanarak final modeli oluşturalım.

In [41]:
#Final model
knn_tuned = KNeighborsRegressor(n_neighbors= knn_cv_model.best_params_["n_neighbors"]).fit(X_train,y_train)

Birde test hatamızı hesaplayalım şimdi.

In [42]:
y_pred = knn_tuned.predict(X_test)
np.sqrt(mean_squared_error(y_test,y_pred))#ilkel test hatamız.

413.7094731463598